Hacker News 中文摘要

文章摘要

文章探讨了通过"代理循环"方法改进AI生成SVG图像的过程。作者以"鹈鹕骑自行车"为例，让AI模型在生成图像后通过视觉能力自我评估并迭代优化，相比传统单次生成方式更能提升输出质量。这种生成-评估-改进的循环机制展现了AI自主优化的潜力。

文章总结

标题：自行车上的鹈鹕：AI自主迭代绘画实验

核心内容：

Simon Willison长期使用"生成一只骑自行车的鹈鹕SVG图像"作为AI模型的非正式基准测试。本文作者在此基础上进行了创新实验：让具备视觉能力的AI模型通过"生成-评估-改进"的自主循环迭代优化作品。

实验设计：

创新点：不同于传统零样本生成，允许模型通过Chrome DevTools将SVG转为JPG后自我检视
工具配置：统一使用Chrome DevTools MCP服务器进行格式转换，确保评估标准一致
提示设计：保持最小化干预，仅提供基础循环指令，不限定具体改进方向

测试模型：

包括Claude系列（Opus 4.1/Sonnet 4.5/Haiku 4.5）、GPT-5（标准版与Codex版）和Gemini 2.5 Pro共6款多模态模型，各模型自主决定迭代次数（4-6次不等）。

关键发现：

改进类型：
- Claude Opus 4.1展现出机械逻辑，添加了自行车链条等实际结构
- Gemini 2.5 Pro彻底重构了初始构图
- GPT-5-Codex则陷入"复杂化陷阱"，叠加更多抽象图层
迭代效果：
- 多数模型仅微调细节，保持初始构图框架
- 仅少数模型（如Opus）展现出对机械结构的理解能力
- 部分模型缺乏审美判断，将"更多细节"等同于改进
核心结论：
- 自主迭代能力与零样本生成是两种不同的技能维度
- 视觉能力必须配合审美判断/机械推理才能有效改进作品
- 模型自我批判能力的差异显著影响最终成果

实验意义：

该实验揭示了AI在创造性任务中自我优化的潜力与局限，为评估模型的自主改进能力提供了新视角。所有测试代码与结果已开源在GitHub仓库。

（注：原文中的图片链接和部分技术细节已精简，保留了核心实验逻辑与关键发现）

评论总结

总结评论内容如下：

关于实验方法的质疑
- 认为单次测试结果不可靠，需要多次实验验证（评论1、8） "I feels like it's a bit hard to take much from this without running this trial many times"（评论1） "A single run... is not a good data point"（评论8）
模型修订能力不足
- 指出LLMs在修订方面表现糟糕，尤其是图像调整（评论3、7、13） "LLMs are somewhat miraculous in generation but terrible at revision"（评论3） "the models seem to stick close to their original shapes"（评论7）
评估方式的建议
- 建议使用独立模型进行评估（评论4、10） "Feed the output to a different model"（评论4） "Could this be improved if the evaluation was done by an independent sub-agent?"（评论10）
对"agentic"概念的质疑
- 批评营销术语滥用（评论9、12） "corporate marketing departments redefining words"（评论9） "A G E N T I C... ITS AGENTIC"（评论12）
积极评价与例外表现
- 认可Claude模型的表现（评论14） "am surprised that the Claude models performed that much better"（评论14）
- 肯定实验价值（评论15） "Very nice results!"（评论15）
潜在作弊可能性的担忧
- 质疑模型可能内置人工制作的模板（评论16） "What prevents LLM designers from cheating..."（评论16）
写作风格的质疑
- 怀疑文章部分内容由AI生成（评论6、14） "Is AI making people write this way now on their own?"（评论6） "This part triggered all my LLM flags"（评论14）

骑自行车的鹈鹕特工 -- Agentic pelican on a bicycle