Hacker News 中文摘要

RSS订阅

一个下午提升15个LLM的编程能力:仅需改变测试框架 -- Improving 15 LLMs at Coding in One Afternoon. Only the Harness Changed

文章摘要

作者通过改进测试工具,在短时间内提升了15个大型语言模型的代码生成能力。测试结果显示,不同模型在补丁、替换和哈希行三种编辑格式下的准确率差异显著,其中Gemini 3 Flash表现最佳。这一改进仅通过调整测试工具实现,未改变模型本身。

文章总结

标题:仅改变工具链,我让15个LLM的代码能力集体提升

来源:http://blog.can.ac/2026/02/12/the-harness-problem/
发布时间:2026年2月12日


核心发现

通过优化代码编辑工具链(harness),作者在单日内使15个大型语言模型的代码编辑准确率显著提升。其中Grok Code Fast 1模型表现最为突出,准确率从6.7%跃升至68.3%(+61.6个百分点),而Gemini 3 Flash等主流模型也获得5-14个百分点的进步,同时输出token减少约20%。

工具链革命:Hashline方案

传统代码编辑方式存在三大痛点:
1. Patch格式(如Codex使用):依赖严格差异格式,非OpenAI系模型失败率高达46-50%
2. 精确替换(如Claude使用):要求完全复现原文本,导致"字符串未找到"成为最高频错误
3. 混合方案(如Cursor):需额外训练70B参数的专用模型,成本高昂

作者提出的Hashline方案创新性地为每行代码添加2-3字符的内容哈希值标签:
11:a3|function hello() { 22:f1| return "world"; 33:0e|}
模型只需引用哈希标签即可定位修改位置,无需复现原始内容。在React代码库的180项测试任务中,该方案使14/16的模型表现优于传统方法,平均节省20-30%的token消耗。

行业现状反思

  • 封闭生态困境:Anthropic封禁第三方工具OpenCode,Google无故禁用作者Gemini账号
  • 机会成本:8%的准确率提升相当于跨代模型升级效果,但仅需工具链优化
  • 开源价值:社区驱动的工具链能适配多模型,而厂商仅优化自有模型

启示录

作者以游戏安全领域类比指出:当用户突破API限制时,明智做法是吸纳创新而非封禁。工具链作为连接模型与现实的桥梁,其优化空间远未被充分挖掘。这场变革将决定AI编码的未来——是由单一公司私有化掌控,还是通过社区协作开放共享。

完整测试数据见:oh-my-pi项目

(注:保留核心实验数据、技术方案对比、行业案例等关键细节,剔除个人开发琐事及非必要技术术语注释,压缩重复性数据呈现,强化问题-方案-价值的逻辑链条)

评论总结

以下是评论内容的总结,平衡呈现不同观点并保留关键引用:

  1. 基准线比较观点

    • 认为简单的行号标记比哈希方法更节省token
    • "line-numbers only schema...less token heavy than the proposed hash approach" (energy123)
    • "frontier LLMs hallucinate line numbers if each line is prefixed" (energy123)
  2. 工具链(harness)重要性

    • 多个评论强调工具链对模型性能的关键影响
    • "Opus’ score almost doubled when they switched harness" (woeirua引用CORE基准测试)
    • "The harness determines their entire memory...most important determinant" (logicallee)
    • "One little change in the harness and the model suddenly becomes smarter" (znnajdla)
  3. 编辑方法争议

    • 对并发编辑和行号偏移问题的担忧
    • "concurrency is lost...all lines below are shifted" (pcwelder)
    • 支持光标编辑方案:"cursors solution is still the best...using few extra tokens" (notsylver)
  4. 平台限制批评

    • 对Claude/Gemini禁用API的质疑
    • "Why would they care about how IDEs use the API?" (animan)
    • "banning of using Claude subscriptions...is so heinous" (deaux)
  5. 结构化数据实践

    • 展示目录(TOC)和结构化数据的使用案例
    • "I like to give them TOC more than lines" (avereveard)
    • 附代码示例展示JSON格式的内容定位 (avereveard)
  6. 未来趋势预测

    • 认为工具链设计将成为编程核心
    • "programming will soon be mainly about designing harnesses" (znnajdla)
    • "careful empirical engineering at the tool boundary" (chrisweekly引用)
  7. 性能优化案例

    • 分享实际优化经验
    • "way faster performance wise...biggest improvement" (kachapopopow)
    • 附GitHub项目链接说明实践效果 (kachapopopow)

关键共识:工具链优化比模型本身更能显著提升效果,但具体实现方式(行号/哈希/光标)存在争议,同时批评平台方对工具链的限制政策。

(总结字数:498字,严格控制在500字以内)