Hacker News 中文摘要

文章摘要

该项目成功构建了可扩展至32个H100 GPU的强化学习训练基础设施，用于训练长时程终端编码代理。开发者开发了Terminal-Agent-Qwen3-32b，使其成为Stanford TerminalBench排行榜上得分最高的Qwen3代理，且无需训练。该项目基于UC Berkeley Sky Lab的rLLM框架，扩展了自定义环境和基础设施，专门用于终端代理训练。

文章总结

项目概述：Terminal-Bench-RL - 使用强化学习训练长期终端任务代理

项目亮点： - 基础设施：成功构建了稳定的强化学习训练基础设施，支持在4个裸金属节点上使用32个H100 GPU进行训练，专注于长期终端编码任务。 - 代理表现：开发的Terminal-Agent-Qwen3-32b在Stanford的TerminalBench排行榜上成为得分最高的Qwen3代理，且未经训练（目前正在提交中）。 - 计算成本：由于训练一个顶尖编码代理的计算成本高昂（预计需要3万至5万英镑），项目目前无法进行完整训练，但提供了完整的训练代码和数据集。

技术细节： - 框架扩展：项目基于UC Berkeley Sky Lab开发的rLLM框架，扩展了自定义环境和基础设施，专门用于终端代理训练。 - 奖励设计：通过两种互补的方法计算奖励： - 答案验证（65%权重）：使用Python单元测试验证任务完成情况。 - LLM作为裁判（35%权重）：使用Claude-4-Sonnet评估代理行为，重点关注行动输出成功、任务管理、阶段遵循和工具使用效果。 - 训练架构：采用Group Relative Policy Optimization (GRPO)算法，支持从2个A100到32个H100的硬件配置，自动处理模型分布、内存优化和Docker容器生命周期管理。

数据集： - 任务数量：包含331个训练任务，难度从简单到极难。 - 数据生成：使用Claude Code + Opus-4生成并验证每个数据点，确保数据质量。 - 环境创建：每个任务生成多个并行轨迹，每个轨迹在独立的Docker容器中执行，确保完全隔离。

未来改进： - 完整训练：在计算预算充足的情况下，进行完整训练并评估模型表现。 - 课程学习：逐步增加任务难度，从简单任务开始，逐步过渡到完全依赖软件验证。 - 数据集扩展：生成更多数据点，确保数据多样性，并进行仔细验证。 - 智能数据过滤：在训练前过滤掉模型表现过好或过差的任务，节省GPU时间。

致谢： - 感谢Terminal Bench和rLLM的贡献者，以及Claude Code团队和Anthropic研究团队的启发和支持。

该项目展示了在有限资源下如何通过强化学习训练高效的终端任务代理，并为未来的扩展和改进提供了明确的方向。

评论总结

评论主要围绕以下几个方面展开：

对工作的赞赏与认可：
- 多位评论者对作者的工作表示赞赏，认为其成果令人印象深刻，尤其是在资源有限的情况下。
- 引用："Great work!" (评论1) / "This is incredible work" (评论6)
对资源与成本的关注：
- 评论者询问了项目的成本，并对其在低预算下取得的成果表示惊讶。
- 引用："How much did you spend?" (评论2) / "That you've spent in the low-thousands... and managed to beat GPT4.1 is an amazing insight" (评论4)
对技术细节的探讨：
- 有评论者提到项目使用了verl框架，并推荐了相关论文以深入了解强化学习的技术细节。
- 引用："It uses verl [1] underneath. The paper 'HybridFlow: A Flexible and Efficient RLHF Framework' [2] explains it really well." (评论3)
对众筹与资源扩展的建议：
- 评论者建议通过众筹等方式解决GPU资源不足的问题，以进一步推动项目发展。
- 引用："Did you consider a kickstarter to overcome the gpu poorness???" (评论7)
对结果的澄清与误解：
- 有评论者指出，部分评论可能误解了项目的实际成果，强调作者并未进行模型训练，而是通过系统提示和工具实现了基准测试的提升。
- 引用："Some of the comments so far seem to be misunderstanding this submission... No training was involved." (评论8)

总结：评论者对作者的工作普遍持积极态度，关注点集中在成本、技术细节和资源扩展上，同时也有评论者对项目的实际成果进行了澄清。

展示 HN：Terminal-Bench-RL：用强化学习训练长视野终端代理 -- Show HN: Terminal-Bench-RL: Training Long-Horizon Terminal Agents with RL

文章摘要

文章总结

评论总结