文章摘要
这篇文章介绍了一场生成式AI图像模型的竞赛,要求模型根据特定提示生成图像,并设定了严格的评判标准。竞赛禁止使用图像编辑功能,测试了包括OpenAI 4o、Gemini 2.5等14个模型。具体案例包括普鲁士士兵玩环抛游戏和绘制九角星等挑战,展示了不同模型在遵循复杂指令方面的表现差异。
文章总结
生成式AI图像模型对决
竞赛规则
- 禁止使用图像修复或编辑功能
- 禁止通过指令修正进行混音等变相编辑操作
- 每个提示词最多尝试数十次生成
参赛模型
展示14个模型中的6个,包括:
- OpenAI 4o
- Gemini 2.5 Flash Image
- Imagen 4
- Midjourney v7等
核心测试案例与结果
普鲁士套圈游戏
- 提示:两名戴尖顶头盔的普鲁士士兵互掷金属环
- 通过率:5/6
- 趣味联想:可发展成用头盔尖接环的极限飞盘运动
九角星绘制
- 难点:训练数据多含偶数角星体
- 通过率:3/6
亚历山大大帝的跳跳球
- 要求:历史油画风格,骑乘橡胶跳跳球作战
- 通过率:4/6
- 幽默旁白:增强核心肌群的印度远征
五层玻璃立方体
- 关键:红→蓝→绿→紫→黄的垂直堆叠
- 通过率:5/6
- 发现:竖版构图显著提升准确性
海豚体罚美人鱼
- 通过率:3/6
- 戏谑备注:惩罚囤积发叉的行为
章鱼袜偶戏
- 测试重点:袜偶概念的理解
- 通过率:3/6
量子纠缠的爱因斯坦
- 要素:闪烁灯泡+薛定谔方程黑板
- 通过率:3/6
- 观察:模型常自创"方程式"
彩虹色珊瑚蛇
- 严格色序:红→蓝→绿→紫→黄
- 通过率:0/6
- 意义:揭示文本转图像技术瓶颈
蜜蜂惊魂四格漫画
- 通过率:4/6
北极冰腿海盗
- 亮点:冰制假肢+弯刀
- 通过率:6/6
迷宫绘制
- 难点:全局逻辑一致性
- 通过率:1/6
质数二十面骰
- 挑战:替换常规数字为前20个质数
- 通过率:0/6
技术启示
- 宽高比等基础参数显著影响生成效果
- 抽象逻辑要求仍是当前技术难点
- 文化概念理解存在明显差异(如袜偶)
(注:保留核心测试案例与关键数据,删减重复性规则说明及部分幽默性旁白)
评论总结
这篇评论主要围绕AI图像生成模型的比较和讨论展开,以下是主要观点总结:
模型表现与迭代方法
- 有评论对迭代方法提出质疑,认为多轮尝试可能影响准确性
"I don't fully understand the iterative methodology... Won't they have limited accuracy in itself?" - 也有观点认为模型可能隐藏了多轮生成过程,只展示最佳结果
"I'd assume that behind the scenes the models generate several passes and only show the user the best one"
- 有评论对迭代方法提出质疑,认为多轮尝试可能影响准确性
具体测试案例讨论
- 章鱼木偶测试中,多个模型未能完全满足触手覆盖的要求
"Other models did not meet the 'each tentacle covered' criteria"
"OpenAI 4o image only has 6 puppets with 2 tentacles being puppetless" - 对钟表显示时间的传统偏见提出测试建议
"Did current models overcome the 10:10 bias?"
"lets add the 'analog clock showing 3:15' as well"
- 章鱼木偶测试中,多个模型未能完全满足触手覆盖的要求
模型风格与工作流程
- 注意到不同模型的输出风格差异
"4o has the temperature turned way down... while midjourney etc seem to have higher temperature" - 怀疑存在后期处理步骤
"I don't believe any of these just generate the image though... several steps in each workflows"
- 注意到不同模型的输出风格差异
内容适当性与道德限制
- 对某些生成内容的工作场所适当性提出质疑
"it not seeming the most work-appropriate" - 批评模型的过度道德审查
"Gpt4o shows the huge annoyance of the company/model being a moral judge"
- 对某些生成内容的工作场所适当性提出质疑
文章链接与技术分类争议
- 指出文章标题与内容不符,混淆了图像生成与编辑的区别
"the subject is actually prompt adherence in image generation from prompting" - 提供了更相关的正确链接
"Actual link seems to be: https://genai-showdown.specr.net/image-editing"
- 指出文章标题与内容不符,混淆了图像生成与编辑的区别
其他观察
- 注意到文章缺乏日期信息的问题
"Odd there is no dates, at first glance one might think the pages were made at the same time" - 对特定提示词的生成难度提出测试建议
"person riding in a kangaroo pouch... Most of the pure diffusion models haven't been able to do it"
- 注意到文章缺乏日期信息的问题