Hacker News 中文摘要

文章摘要

该文章介绍了ModelRift对多个AI编程工具进行的OpenSCAD建模能力测试，要求它们根据参考图像构建罗马万神殿的3D模型，包括圆顶、柱廊等细节，以评估不同模型在空间几何处理和参数化CAD代码生成方面的表现。测试结果展示了各模型的输出效果，旨在追踪AI在复杂几何建模任务上的进步。

文章总结

OpenSCAD LLM 基准测试：万神殿建模实践

测试概述
ModelRift团队对多款AI编程工具进行了OpenSCAD建模能力测试，要求各模型根据参考图像生成罗马万神殿的3D模型（包含圆形大厅、穹顶、柱廊等关键结构）。测试通过OpenSCAD CLI实时渲染预览并迭代优化，评估模型将建筑参考转化为参数化CAD代码的能力。

为什么选择万神殿？
- 中等复杂度：既非基础立方体测试（所有模型都能完成），也非不适合OpenSCAD的有机曲面建模
- 典型构造特征：径向对称结构、布尔运算、重复柱体等完美契合OpenSCAD优势
- 高辨识度：劣质结果仅具穹顶建筑雏形，优质结果需准确呈现圆形大厅与矩形柱廊的空间关系

为什么使用OpenSCAD？
- 文本化建模：与LLM的结构化推理方式高度契合，支持直接描述嵌套变换、布尔运算等
- 参数化优势：修改便捷（如调整柱间距只需修改参数而非场景状态）
- 工业适配性：完美对接3D打印标准格式（STL/3MF）

测试结果亮点
1. 最佳自主模型：
- Google Antigravity 2.0/Gemini 3.5 Flash High（4.5/5分）
- 唯一实现穹顶内部藻井图案的模型，采用真实建筑尺寸参数
- 细节亮点：双色立柱、可读铭文、阶梯状屋顶环

人机协作最优：
- ModelRift/Gemini Flash 3.0（3.8/5分）
- 通过可视化标注迭代优化，10分钟完成
其他模型表现：
- Codex 5.5 High：细节最丰富但最终导出存在几何缺陷
- Claude Sonnet：原自主批次中最协调的比例（3.4/5分）
- Cursor Composer：速度最快但质量最弱（1.4/5分）

关键发现
- 工具链无障碍：所有模型均可调用OpenSCAD CLI生成预览
- 速度≠质量：最快完成的Cursor结果最弱，耗时最长的Antigravity最优
- 预览≠成品：Codex的渲染预览与最终STL存在显著差异
- 完全自主建模仍有局限：人机协作的视觉反馈能显著提升空间精度

工作流差异
- Codex Desktop：最佳可视化调试，直接显示参考图像与代码编辑
- Claude Code：终端主导，过程可视化较弱
- Antigravity 2.0：新增剖面模式开关，实现内外结构同步展示

（完整测试结果与可视化案例请参阅原文链接）

评论总结

以下是评论内容的总结，平衡呈现不同观点并保留关键引用：

对Antigravity产品的批评
- 用户指出产品存在基础功能问题，如强制登录、IDE无法更新等，认为应优先解决基础问题而非追求排名。
  引用："My Antigravity (forced) replacement...requires me to log on via browser every time"
  引用："AntiGravity IDE is currently tripping over...a basic Electron deployment config bug"
对AI技术进步的肯定
- 部分用户认为即使表现最差的模型也令人印象深刻，技术进步速度远超预期。
  引用："Even the worst entries in the benchmark are quite impressive"
  引用："Three years ago we would have been amazed if models were able to produce anything"
对Google的不信任
- 用户担心Google可能放弃Antigravity项目，认为其产品策略不可靠。
  引用："If it doesn't make Google billions, don't trust them"
  引用："next year Google will probably sunset Antigravity"
对AI在专业领域应用的讨论
- 用户质疑为何没有专门针对CAD的LLM模型，并讨论AI在不同领域的通用性。
  引用："Why are specialized CAD making LLM models not showing up?"
  引用："In future are we going to have same model for everything?"
对AI实际应用效果的积极反馈
- 有用户分享了使用AI工具（如Claude）成功解决实际问题的经历。
  引用："Gave it a short prompt and it gave me an openscad model...it's perfect"
  引用："It generates assets and sprite good enough, if not closer to AAA level games"
对社区讨论的反思
- 用户注意到评论中两极分化的现象，质疑缺乏普通用户的视角。
  引用："Why are half of the comments...stereotypical AI-bros...and the other half sceptical commentators"

总结呈现了批评、肯定、不信任、专业讨论、积极反馈和社区反思等多方面观点，保持了平衡性并突出了关键论据。

《Antigravity 2.0荣登OpenSCAD建筑3D LLM基准测试榜首》 -- Antigravity 2.0 Tops the OpenSCAD Architectural 3D LLM Benchmark

文章摘要

文章总结

OpenSCAD LLM 基准测试：万神殿建模实践

评论总结