Hacker News 中文摘要

RSS订阅

《Antigravity 2.0荣登OpenSCAD建筑3D LLM基准测试榜首》 -- Antigravity 2.0 Tops the OpenSCAD Architectural 3D LLM Benchmark

文章摘要

该文章介绍了ModelRift对多个AI编程工具进行的OpenSCAD建模能力测试,要求它们根据参考图像构建罗马万神殿的3D模型,包括圆顶、柱廊等细节,以评估不同模型在空间几何处理和参数化CAD代码生成方面的表现。测试结果展示了各模型的输出效果,旨在追踪AI在复杂几何建模任务上的进步。

文章总结

OpenSCAD LLM 基准测试:万神殿建模实践

测试概述
ModelRift团队对多款AI编程工具进行了OpenSCAD建模能力测试,要求各模型根据参考图像生成罗马万神殿的3D模型(包含圆形大厅、穹顶、柱廊等关键结构)。测试通过OpenSCAD CLI实时渲染预览并迭代优化,评估模型将建筑参考转化为参数化CAD代码的能力。

为什么选择万神殿?
- 中等复杂度:既非基础立方体测试(所有模型都能完成),也非不适合OpenSCAD的有机曲面建模
- 典型构造特征:径向对称结构、布尔运算、重复柱体等完美契合OpenSCAD优势
- 高辨识度:劣质结果仅具穹顶建筑雏形,优质结果需准确呈现圆形大厅与矩形柱廊的空间关系

为什么使用OpenSCAD?
- 文本化建模:与LLM的结构化推理方式高度契合,支持直接描述嵌套变换、布尔运算等
- 参数化优势:修改便捷(如调整柱间距只需修改参数而非场景状态)
- 工业适配性:完美对接3D打印标准格式(STL/3MF)

测试结果亮点
1. 最佳自主模型
- Google Antigravity 2.0/Gemini 3.5 Flash High(4.5/5分)
- 唯一实现穹顶内部藻井图案的模型,采用真实建筑尺寸参数
- 细节亮点:双色立柱、可读铭文、阶梯状屋顶环

  1. 人机协作最优

    • ModelRift/Gemini Flash 3.0(3.8/5分)
    • 通过可视化标注迭代优化,10分钟完成
  2. 其他模型表现

    • Codex 5.5 High:细节最丰富但最终导出存在几何缺陷
    • Claude Sonnet:原自主批次中最协调的比例(3.4/5分)
    • Cursor Composer:速度最快但质量最弱(1.4/5分)

关键发现
- 工具链无障碍:所有模型均可调用OpenSCAD CLI生成预览
- 速度≠质量:最快完成的Cursor结果最弱,耗时最长的Antigravity最优
- 预览≠成品:Codex的渲染预览与最终STL存在显著差异
- 完全自主建模仍有局限:人机协作的视觉反馈能显著提升空间精度

工作流差异
- Codex Desktop:最佳可视化调试,直接显示参考图像与代码编辑
- Claude Code:终端主导,过程可视化较弱
- Antigravity 2.0:新增剖面模式开关,实现内外结构同步展示

(完整测试结果与可视化案例请参阅原文链接)

评论总结

以下是评论内容的总结,平衡呈现不同观点并保留关键引用:

  1. 对Antigravity产品的批评

    • 用户指出产品存在基础功能问题,如强制登录、IDE无法更新等,认为应优先解决基础问题而非追求排名。
      引用:"My Antigravity (forced) replacement...requires me to log on via browser every time"
      引用:"AntiGravity IDE is currently tripping over...a basic Electron deployment config bug"
  2. 对AI技术进步的肯定

    • 部分用户认为即使表现最差的模型也令人印象深刻,技术进步速度远超预期。
      引用:"Even the worst entries in the benchmark are quite impressive"
      引用:"Three years ago we would have been amazed if models were able to produce anything"
  3. 对Google的不信任

    • 用户担心Google可能放弃Antigravity项目,认为其产品策略不可靠。
      引用:"If it doesn't make Google billions, don't trust them"
      引用:"next year Google will probably sunset Antigravity"
  4. 对AI在专业领域应用的讨论

    • 用户质疑为何没有专门针对CAD的LLM模型,并讨论AI在不同领域的通用性。
      引用:"Why are specialized CAD making LLM models not showing up?"
      引用:"In future are we going to have same model for everything?"
  5. 对AI实际应用效果的积极反馈

    • 有用户分享了使用AI工具(如Claude)成功解决实际问题的经历。
      引用:"Gave it a short prompt and it gave me an openscad model...it's perfect"
      引用:"It generates assets and sprite good enough, if not closer to AAA level games"
  6. 对社区讨论的反思

    • 用户注意到评论中两极分化的现象,质疑缺乏普通用户的视角。
      引用:"Why are half of the comments...stereotypical AI-bros...and the other half sceptical commentators"

总结呈现了批评、肯定、不信任、专业讨论、积极反馈和社区反思等多方面观点,保持了平衡性并突出了关键论据。