Hacker News 中文摘要

文章摘要

作者通过改进测试工具，在短时间内提升了15个大型语言模型的代码生成能力。测试结果显示，不同模型在补丁、替换和哈希行三种编辑格式下的准确率差异显著，其中Gemini 3 Flash表现最佳。这一改进仅通过调整测试工具实现，未改变模型本身。

文章总结

标题：仅改变工具链，我让15个LLM的代码能力集体提升

来源：http://blog.can.ac/2026/02/12/the-harness-problem/
发布时间：2026年2月12日

核心发现

通过优化代码编辑工具链（harness），作者在单日内使15个大型语言模型的代码编辑准确率显著提升。其中Grok Code Fast 1模型表现最为突出，准确率从6.7%跃升至68.3%（+61.6个百分点），而Gemini 3 Flash等主流模型也获得5-14个百分点的进步，同时输出token减少约20%。

工具链革命：Hashline方案

传统代码编辑方式存在三大痛点：
1. Patch格式（如Codex使用）：依赖严格差异格式，非OpenAI系模型失败率高达46-50%
2. 精确替换（如Claude使用）：要求完全复现原文本，导致"字符串未找到"成为最高频错误
3. 混合方案（如Cursor）：需额外训练70B参数的专用模型，成本高昂

作者提出的Hashline方案创新性地为每行代码添加2-3字符的内容哈希值标签：
11:a3|function hello() { 22:f1| return "world"; 33:0e|}
模型只需引用哈希标签即可定位修改位置，无需复现原始内容。在React代码库的180项测试任务中，该方案使14/16的模型表现优于传统方法，平均节省20-30%的token消耗。

行业现状反思

封闭生态困境：Anthropic封禁第三方工具OpenCode，Google无故禁用作者Gemini账号
机会成本：8%的准确率提升相当于跨代模型升级效果，但仅需工具链优化
开源价值：社区驱动的工具链能适配多模型，而厂商仅优化自有模型

启示录

作者以游戏安全领域类比指出：当用户突破API限制时，明智做法是吸纳创新而非封禁。工具链作为连接模型与现实的桥梁，其优化空间远未被充分挖掘。这场变革将决定AI编码的未来——是由单一公司私有化掌控，还是通过社区协作开放共享。

完整测试数据见：oh-my-pi项目

（注：保留核心实验数据、技术方案对比、行业案例等关键细节，剔除个人开发琐事及非必要技术术语注释，压缩重复性数据呈现，强化问题-方案-价值的逻辑链条）

评论总结

以下是评论内容的总结，平衡呈现不同观点并保留关键引用：

基准线比较观点
- 认为简单的行号标记比哈希方法更节省token
- "line-numbers only schema...less token heavy than the proposed hash approach" (energy123)
- "frontier LLMs hallucinate line numbers if each line is prefixed" (energy123)
工具链（harness）重要性
- 多个评论强调工具链对模型性能的关键影响
- "Opus’ score almost doubled when they switched harness" (woeirua引用CORE基准测试)
- "The harness determines their entire memory...most important determinant" (logicallee)
- "One little change in the harness and the model suddenly becomes smarter" (znnajdla)
编辑方法争议
- 对并发编辑和行号偏移问题的担忧
- "concurrency is lost...all lines below are shifted" (pcwelder)
- 支持光标编辑方案："cursors solution is still the best...using few extra tokens" (notsylver)
平台限制批评
- 对Claude/Gemini禁用API的质疑
- "Why would they care about how IDEs use the API?" (animan)
- "banning of using Claude subscriptions...is so heinous" (deaux)
结构化数据实践
- 展示目录(TOC)和结构化数据的使用案例
- "I like to give them TOC more than lines" (avereveard)
- 附代码示例展示JSON格式的内容定位 (avereveard)
未来趋势预测
- 认为工具链设计将成为编程核心
- "programming will soon be mainly about designing harnesses" (znnajdla)
- "careful empirical engineering at the tool boundary" (chrisweekly引用)
性能优化案例
- 分享实际优化经验
- "way faster performance wise...biggest improvement" (kachapopopow)
- 附GitHub项目链接说明实践效果 (kachapopopow)

关键共识：工具链优化比模型本身更能显著提升效果，但具体实现方式（行号/哈希/光标）存在争议，同时批评平台方对工具链的限制政策。

（总结字数：498字，严格控制在500字以内）