文章摘要
该文章介绍了ModelRift对多个AI编程工具进行的OpenSCAD建模能力测试,要求它们根据参考图像构建罗马万神殿的3D模型,包括圆顶、柱廊等细节,以评估不同模型在空间几何处理和参数化CAD代码生成方面的表现。测试结果展示了各模型的输出效果,旨在追踪AI在复杂几何建模任务上的进步。
文章总结
OpenSCAD LLM 基准测试:万神殿建模实践
测试概述
ModelRift团队对多款AI编程工具进行了OpenSCAD建模能力测试,要求各模型根据参考图像生成罗马万神殿的3D模型(包含圆形大厅、穹顶、柱廊等关键结构)。测试通过OpenSCAD CLI实时渲染预览并迭代优化,评估模型将建筑参考转化为参数化CAD代码的能力。
为什么选择万神殿?
- 中等复杂度:既非基础立方体测试(所有模型都能完成),也非不适合OpenSCAD的有机曲面建模
- 典型构造特征:径向对称结构、布尔运算、重复柱体等完美契合OpenSCAD优势
- 高辨识度:劣质结果仅具穹顶建筑雏形,优质结果需准确呈现圆形大厅与矩形柱廊的空间关系
为什么使用OpenSCAD?
- 文本化建模:与LLM的结构化推理方式高度契合,支持直接描述嵌套变换、布尔运算等
- 参数化优势:修改便捷(如调整柱间距只需修改参数而非场景状态)
- 工业适配性:完美对接3D打印标准格式(STL/3MF)
测试结果亮点
1. 最佳自主模型:
- Google Antigravity 2.0/Gemini 3.5 Flash High(4.5/5分)
- 唯一实现穹顶内部藻井图案的模型,采用真实建筑尺寸参数
- 细节亮点:双色立柱、可读铭文、阶梯状屋顶环
人机协作最优:
- ModelRift/Gemini Flash 3.0(3.8/5分)
- 通过可视化标注迭代优化,10分钟完成
其他模型表现:
- Codex 5.5 High:细节最丰富但最终导出存在几何缺陷
- Claude Sonnet:原自主批次中最协调的比例(3.4/5分)
- Cursor Composer:速度最快但质量最弱(1.4/5分)
关键发现
- 工具链无障碍:所有模型均可调用OpenSCAD CLI生成预览
- 速度≠质量:最快完成的Cursor结果最弱,耗时最长的Antigravity最优
- 预览≠成品:Codex的渲染预览与最终STL存在显著差异
- 完全自主建模仍有局限:人机协作的视觉反馈能显著提升空间精度
工作流差异
- Codex Desktop:最佳可视化调试,直接显示参考图像与代码编辑
- Claude Code:终端主导,过程可视化较弱
- Antigravity 2.0:新增剖面模式开关,实现内外结构同步展示
(完整测试结果与可视化案例请参阅原文链接)
评论总结
以下是评论内容的总结,平衡呈现不同观点并保留关键引用:
对Antigravity产品的批评
- 用户指出产品存在基础功能问题,如强制登录、IDE无法更新等,认为应优先解决基础问题而非追求排名。
引用:"My Antigravity (forced) replacement...requires me to log on via browser every time"
引用:"AntiGravity IDE is currently tripping over...a basic Electron deployment config bug"
- 用户指出产品存在基础功能问题,如强制登录、IDE无法更新等,认为应优先解决基础问题而非追求排名。
对AI技术进步的肯定
- 部分用户认为即使表现最差的模型也令人印象深刻,技术进步速度远超预期。
引用:"Even the worst entries in the benchmark are quite impressive"
引用:"Three years ago we would have been amazed if models were able to produce anything"
- 部分用户认为即使表现最差的模型也令人印象深刻,技术进步速度远超预期。
对Google的不信任
- 用户担心Google可能放弃Antigravity项目,认为其产品策略不可靠。
引用:"If it doesn't make Google billions, don't trust them"
引用:"next year Google will probably sunset Antigravity"
- 用户担心Google可能放弃Antigravity项目,认为其产品策略不可靠。
对AI在专业领域应用的讨论
- 用户质疑为何没有专门针对CAD的LLM模型,并讨论AI在不同领域的通用性。
引用:"Why are specialized CAD making LLM models not showing up?"
引用:"In future are we going to have same model for everything?"
- 用户质疑为何没有专门针对CAD的LLM模型,并讨论AI在不同领域的通用性。
对AI实际应用效果的积极反馈
- 有用户分享了使用AI工具(如Claude)成功解决实际问题的经历。
引用:"Gave it a short prompt and it gave me an openscad model...it's perfect"
引用:"It generates assets and sprite good enough, if not closer to AAA level games"
- 有用户分享了使用AI工具(如Claude)成功解决实际问题的经历。
对社区讨论的反思
- 用户注意到评论中两极分化的现象,质疑缺乏普通用户的视角。
引用:"Why are half of the comments...stereotypical AI-bros...and the other half sceptical commentators"
- 用户注意到评论中两极分化的现象,质疑缺乏普通用户的视角。
总结呈现了批评、肯定、不信任、专业讨论、积极反馈和社区反思等多方面观点,保持了平衡性并突出了关键论据。