Hacker News 中文摘要

文章摘要

这篇文章介绍了一场生成式AI图像模型的竞赛，要求模型根据特定提示生成图像，并设定了严格的评判标准。竞赛禁止使用图像编辑功能，测试了包括OpenAI 4o、Gemini 2.5等14个模型。具体案例包括普鲁士士兵玩环抛游戏和绘制九角星等挑战，展示了不同模型在遵循复杂指令方面的表现差异。

文章总结

生成式AI图像模型对决

竞赛规则

禁止使用图像修复或编辑功能
禁止通过指令修正进行混音等变相编辑操作
每个提示词最多尝试数十次生成

参赛模型

展示14个模型中的6个，包括：
- OpenAI 4o
- Gemini 2.5 Flash Image
- Imagen 4
- Midjourney v7等

核心测试案例与结果

普鲁士套圈游戏
- 提示：两名戴尖顶头盔的普鲁士士兵互掷金属环
- 通过率：5/6
- 趣味联想：可发展成用头盔尖接环的极限飞盘运动

九角星绘制
- 难点：训练数据多含偶数角星体
- 通过率：3/6

亚历山大大帝的跳跳球
- 要求：历史油画风格，骑乘橡胶跳跳球作战
- 通过率：4/6
- 幽默旁白：增强核心肌群的印度远征

五层玻璃立方体
- 关键：红→蓝→绿→紫→黄的垂直堆叠
- 通过率：5/6
- 发现：竖版构图显著提升准确性

海豚体罚美人鱼
- 通过率：3/6
- 戏谑备注：惩罚囤积发叉的行为

章鱼袜偶戏
- 测试重点：袜偶概念的理解
- 通过率：3/6

量子纠缠的爱因斯坦
- 要素：闪烁灯泡+薛定谔方程黑板
- 通过率：3/6
- 观察：模型常自创"方程式"

彩虹色珊瑚蛇
- 严格色序：红→蓝→绿→紫→黄
- 通过率：0/6
- 意义：揭示文本转图像技术瓶颈

蜜蜂惊魂四格漫画
- 通过率：4/6

北极冰腿海盗
- 亮点：冰制假肢+弯刀
- 通过率：6/6

迷宫绘制
- 难点：全局逻辑一致性
- 通过率：1/6

质数二十面骰
- 挑战：替换常规数字为前20个质数
- 通过率：0/6

技术启示

宽高比等基础参数显著影响生成效果
抽象逻辑要求仍是当前技术难点
文化概念理解存在明显差异（如袜偶）

（注：保留核心测试案例与关键数据，删减重复性规则说明及部分幽默性旁白）

评论总结

这篇评论主要围绕AI图像生成模型的比较和讨论展开，以下是主要观点总结：

模型表现与迭代方法
- 有评论对迭代方法提出质疑，认为多轮尝试可能影响准确性
  "I don't fully understand the iterative methodology... Won't they have limited accuracy in itself?"
- 也有观点认为模型可能隐藏了多轮生成过程，只展示最佳结果
  "I'd assume that behind the scenes the models generate several passes and only show the user the best one"
具体测试案例讨论
- 章鱼木偶测试中，多个模型未能完全满足触手覆盖的要求
  "Other models did not meet the 'each tentacle covered' criteria"
  "OpenAI 4o image only has 6 puppets with 2 tentacles being puppetless"
- 对钟表显示时间的传统偏见提出测试建议
  "Did current models overcome the 10:10 bias?"
  "lets add the 'analog clock showing 3:15' as well"
模型风格与工作流程
- 注意到不同模型的输出风格差异
  "4o has the temperature turned way down... while midjourney etc seem to have higher temperature"
- 怀疑存在后期处理步骤
  "I don't believe any of these just generate the image though... several steps in each workflows"
内容适当性与道德限制
- 对某些生成内容的工作场所适当性提出质疑
  "it not seeming the most work-appropriate"
- 批评模型的过度道德审查
  "Gpt4o shows the huge annoyance of the company/model being a moral judge"
文章链接与技术分类争议
- 指出文章标题与内容不符，混淆了图像生成与编辑的区别
  "the subject is actually prompt adherence in image generation from prompting"
- 提供了更相关的正确链接
  "Actual link seems to be: https://genai-showdown.specr.net/image-editing"
其他观察
- 注意到文章缺乏日期信息的问题
  "Odd there is no dates, at first glance one might think the pages were made at the same time"
- 对特定提示词的生成难度提出测试建议
  "person riding in a kangaroo pouch... Most of the pure diffusion models haven't been able to do it"

GenAI图像编辑对决 -- GenAI Image Editing Showdown