Hacker News 中文摘要

RSS订阅

SWE-CI:通过持续集成评估代理维护代码库的能力 -- SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via CI

文章摘要

该研究提出SWE-CI框架,通过持续集成环境评估AI代理在代码库维护中的能力,重点关注代理在软件开发周期中的自动化任务处理表现。

文章总结

论文标题:SWE-CI:通过持续集成评估智能体维护代码库的能力

核心内容: 1. 研究背景: - 当前大型语言模型(LLM)驱动的智能体在静态错误修复等软件工程任务中表现出色(如SWE-bench基准测试所示) - 但现实软件开发涉及复杂需求变更和长期功能迭代,现有静态一次性修复模式无法体现这一动态过程

  1. 研究创新:
  • 提出首个基于持续集成(CI)循环的仓库级基准测试SWE-CI
  • 将评估重点从静态短期的"功能正确性"转向动态长期的"可维护性"
  1. 基准特点:
  • 包含100个真实世界代码库任务
  • 每个任务平均覆盖233天的演化历史(包含71次连续提交)
  • 要求智能体通过数十轮分析和编码迭代系统性解决问题
  1. 研究价值:
  • 为评估智能体在长期演化过程中保持代码质量的能力提供新视角
  • 填补了现有基准测试在动态长期维护评估方面的空白
  1. 技术细节:
  • 论文发布于2026年3月4日
  • 作者团队来自多个研究机构
  • 属于软件工程(cs.SE)、人工智能(cs.AI)和计算语言学(cs.CL)交叉领域研究

(注:已过滤网页导航元素、重复性说明和辅助功能信息,保留核心学术内容)

评论总结

以下是评论内容的总结,平衡呈现不同观点并保留关键引用:

  1. 基准测试的有效性质疑

    • 认为测试样本量不足:"evaluating long term maintainability over an average of just 500 loc changes does not sound like long term" (challengerVIE)
    • 建议扩大数据集:"The dataset would need to be way bigger to get close to the likes of SWE-bench" (KronisLV)
  2. 模型版本争议

    • 指出版本不对等:"they're benchmarking Opus 4.6 against GPT-5.2 (which is three generations behind)" (woadwarrior01)
    • 认为应测试最新版本:"the paper doesn't include gpt 5.3 which was released around the same time as opus 4.6" (gizmodo59)
  3. Claude表现突出

    • 数据显示优势:"Claude wins by a large margin...GPT-5.2 : 0.23" (mentalgear)
    • 但认为实际差距不大:"I see both Claude and gpt to be neck and neck in coding" (gizmodo59)
  4. 回归问题关注

    • 普遍存在回归:"showing really bad regression rates across the board" (verdverm)
    • 结构改进建议:"keeping everything in a single tree...so the agent sees downstream effects" (yuyuqueen)
  5. 基准测试局限性

    • 无法检测深层问题:"cannot capture...whether your fix preserves the invariants" (agent5ravi)
    • 可能被操纵:"future LLMs will be optimized to hide regressions" (PunchyHamster)
  6. 其他建议

    • 增加人类对照:"compared against a human baseline" (50lo)
    • 细化分类统计:"report per-category numbers" (jbergqvist)
    • 测试成本增加:"the eval set becoming more and more expensive" (smy20011)