文章摘要
文章探讨了通过"代理循环"方法改进AI生成SVG图像的过程。作者以"鹈鹕骑自行车"为例,让AI模型在生成图像后通过视觉能力自我评估并迭代优化,相比传统单次生成方式更能提升输出质量。这种生成-评估-改进的循环机制展现了AI自主优化的潜力。
文章总结
标题:自行车上的鹈鹕:AI自主迭代绘画实验
核心内容:
Simon Willison长期使用"生成一只骑自行车的鹈鹕SVG图像"作为AI模型的非正式基准测试。本文作者在此基础上进行了创新实验:让具备视觉能力的AI模型通过"生成-评估-改进"的自主循环迭代优化作品。
实验设计:
- 创新点:不同于传统零样本生成,允许模型通过Chrome DevTools将SVG转为JPG后自我检视
- 工具配置:统一使用Chrome DevTools MCP服务器进行格式转换,确保评估标准一致
- 提示设计:保持最小化干预,仅提供基础循环指令,不限定具体改进方向
测试模型:
包括Claude系列(Opus 4.1/Sonnet 4.5/Haiku 4.5)、GPT-5(标准版与Codex版)和Gemini 2.5 Pro共6款多模态模型,各模型自主决定迭代次数(4-6次不等)。
关键发现:
改进类型:
- Claude Opus 4.1展现出机械逻辑,添加了自行车链条等实际结构
- Gemini 2.5 Pro彻底重构了初始构图
- GPT-5-Codex则陷入"复杂化陷阱",叠加更多抽象图层
迭代效果:
- 多数模型仅微调细节,保持初始构图框架
- 仅少数模型(如Opus)展现出对机械结构的理解能力
- 部分模型缺乏审美判断,将"更多细节"等同于改进
核心结论:
- 自主迭代能力与零样本生成是两种不同的技能维度
- 视觉能力必须配合审美判断/机械推理才能有效改进作品
- 模型自我批判能力的差异显著影响最终成果
实验意义:
该实验揭示了AI在创造性任务中自我优化的潜力与局限,为评估模型的自主改进能力提供了新视角。所有测试代码与结果已开源在GitHub仓库。
(注:原文中的图片链接和部分技术细节已精简,保留了核心实验逻辑与关键发现)
评论总结
总结评论内容如下:
关于实验方法的质疑
- 认为单次测试结果不可靠,需要多次实验验证(评论1、8) "I feels like it's a bit hard to take much from this without running this trial many times"(评论1) "A single run... is not a good data point"(评论8)
模型修订能力不足
- 指出LLMs在修订方面表现糟糕,尤其是图像调整(评论3、7、13) "LLMs are somewhat miraculous in generation but terrible at revision"(评论3) "the models seem to stick close to their original shapes"(评论7)
评估方式的建议
- 建议使用独立模型进行评估(评论4、10) "Feed the output to a different model"(评论4) "Could this be improved if the evaluation was done by an independent sub-agent?"(评论10)
对"agentic"概念的质疑
- 批评营销术语滥用(评论9、12) "corporate marketing departments redefining words"(评论9) "A G E N T I C... ITS AGENTIC"(评论12)
积极评价与例外表现
- 认可Claude模型的表现(评论14) "am surprised that the Claude models performed that much better"(评论14)
- 肯定实验价值(评论15) "Very nice results!"(评论15)
潜在作弊可能性的担忧
- 质疑模型可能内置人工制作的模板(评论16) "What prevents LLM designers from cheating..."(评论16)
写作风格的质疑
- 怀疑文章部分内容由AI生成(评论6、14) "Is AI making people write this way now on their own?"(评论6) "This part triggered all my LLM flags"(评论14)