Hacker News 中文摘要

RSS订阅

显示HN:我构建的开源代理在Gemini-3-flash-preview上荣登TerminalBench榜首 -- Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview

文章摘要

Dirac是一款高效开源AI编码代理,通过哈希锚定编辑、AST操作等优化技术,在保持代码质量的同时将API成本降低50-80%。它在Terminal-Bench-2基准测试中以65.2%得分领先,平均减少64.8%的API开销,实现了更高精度和更低成本的平衡。

文章总结

Dirac - 高效精准的开源代码AI助手

项目亮点
- 在Terminal-Bench-2基准测试中以65.2%得分(使用Gemini-3-Flash模型)超越Google官方基线(47.6%)和闭源竞品Junie CLI(64.3%)
- 通过哈希锚定并行编辑、AST操作等技术,平均降低64.8%的API成本(2.8倍成本优势)
- 在8项复杂代码重构任务中保持100%准确率,平均成本仅0.18美元(竞品平均0.44-0.73美元)

核心技术
针对大模型上下文长度影响推理能力的痛点,Dirac通过以下创新实现效率突破:
1. 动态上下文管理:精准控制上下文范围,提升准确率的同时降低token消耗
2. 并行编辑系统:支持大规模并发代码修改
3. 抽象语法树操作:确保代码重构的精确性

安装方式
- VS Code插件市场直接安装
- 命令行工具npm install -g dirac-cli

快速开始
1. 认证:dirac auth
2. 执行任务:dirac "分析项目架构"
3. 支持通过环境变量配置API密钥(支持Anthropic/OpenAI/Gemini等12+平台)

开源信息
- 许可证:Apache 2.0
- 基于Cline项目二次开发,由Dirac Delta Labs团队维护

基准测试数据详见项目评估文档,所有测试均在公开GitHub仓库复现验证。

评论总结

以下是评论内容的总结:

  1. 关于Dirac技术特点的讨论

    • 评论2详细列举了Dirac的五大技术特点:优化哈希锚定编辑、利用AST避免大文件读取、批量操作、动态执行代码分析、智能上下文管理。
    • 评论5提到静态分析对AI代理的帮助,但实际体验中LSP存在分析延迟和缓存问题,询问Dirac的AST方法在大项目中是否遇到类似问题。
      引用:"Uses an optimized version of Hash-Anchored edits" / "static analysis starts firing mid edit and complaining"
  2. 与其他工具的比较和集成问题

    • 评论4和11质疑为何不直接开发为现有工具(如OpenCode或pi.dev)的插件,认为哈希锚定编辑等功能可通过扩展实现。
    • 评论6和7询问与pi.dev的对比及是否保留Cline的"plan and act"模式。
      引用:"Can't OpenCode reach the same just developing this as a feature?" / "the extension api is quite extensive"
  3. 实用性和适用性疑问

    • 评论3、12关注CLI支持和语言兼容性(如Rust)。
    • 评论8、9、15询问具体任务表现、前沿模型(如Opus 4.6)适配及CLI上下文优化。
      引用:"No CLI? Only VSCode extension?" / "how well does it do on frontier models?"
  4. 技术框架的重要性

    • 评论13-14强调技术框架(harness)对性能的影响远超模型本身,指出基准测试更多反映框架而非模型能力,但认为上下文管理可能是阶段性解决方案。
      引用:"the harness is what's being measured, the model is just the substrate" / "will probably be obsoleted a few model generations down the road"
  5. 使用问题反馈

    • 评论1、10反映文档不清晰和API错误问题。
      引用:"Sorry I couldn’t really figure out if this was a harness" / "Error: Codex API error: 400"

(注:所有评论均无评分数据,故未体现认可度差异)