Hacker News 中文摘要

RSS订阅

GenAI图像编辑对决 -- GenAI Image Editing Showdown

文章摘要

这篇文章介绍了一场生成式AI图像模型的竞赛,要求模型根据特定提示生成图像,并设定了严格的评判标准。竞赛禁止使用图像编辑功能,测试了包括OpenAI 4o、Gemini 2.5等14个模型。具体案例包括普鲁士士兵玩环抛游戏和绘制九角星等挑战,展示了不同模型在遵循复杂指令方面的表现差异。

文章总结

生成式AI图像模型对决

竞赛规则

  1. 禁止使用图像修复或编辑功能
  2. 禁止通过指令修正进行混音等变相编辑操作
  3. 每个提示词最多尝试数十次生成

参赛模型

展示14个模型中的6个,包括:
- OpenAI 4o
- Gemini 2.5 Flash Image
- Imagen 4
- Midjourney v7等


核心测试案例与结果

普鲁士套圈游戏
- 提示:两名戴尖顶头盔的普鲁士士兵互掷金属环
- 通过率:5/6
- 趣味联想:可发展成用头盔尖接环的极限飞盘运动

九角星绘制
- 难点:训练数据多含偶数角星体
- 通过率:3/6

亚历山大大帝的跳跳球
- 要求:历史油画风格,骑乘橡胶跳跳球作战
- 通过率:4/6
- 幽默旁白:增强核心肌群的印度远征

五层玻璃立方体
- 关键:红→蓝→绿→紫→黄的垂直堆叠
- 通过率:5/6
- 发现:竖版构图显著提升准确性

海豚体罚美人鱼
- 通过率:3/6
- 戏谑备注:惩罚囤积发叉的行为

章鱼袜偶戏
- 测试重点:袜偶概念的理解
- 通过率:3/6

量子纠缠的爱因斯坦
- 要素:闪烁灯泡+薛定谔方程黑板
- 通过率:3/6
- 观察:模型常自创"方程式"

彩虹色珊瑚蛇
- 严格色序:红→蓝→绿→紫→黄
- 通过率:0/6
- 意义:揭示文本转图像技术瓶颈

蜜蜂惊魂四格漫画
- 通过率:4/6

北极冰腿海盗
- 亮点:冰制假肢+弯刀
- 通过率:6/6

迷宫绘制
- 难点:全局逻辑一致性
- 通过率:1/6

质数二十面骰
- 挑战:替换常规数字为前20个质数
- 通过率:0/6


技术启示

  • 宽高比等基础参数显著影响生成效果
  • 抽象逻辑要求仍是当前技术难点
  • 文化概念理解存在明显差异(如袜偶)

(注:保留核心测试案例与关键数据,删减重复性规则说明及部分幽默性旁白)

评论总结

这篇评论主要围绕AI图像生成模型的比较和讨论展开,以下是主要观点总结:

  1. 模型表现与迭代方法

    • 有评论对迭代方法提出质疑,认为多轮尝试可能影响准确性
      "I don't fully understand the iterative methodology... Won't they have limited accuracy in itself?"
    • 也有观点认为模型可能隐藏了多轮生成过程,只展示最佳结果
      "I'd assume that behind the scenes the models generate several passes and only show the user the best one"
  2. 具体测试案例讨论

    • 章鱼木偶测试中,多个模型未能完全满足触手覆盖的要求
      "Other models did not meet the 'each tentacle covered' criteria"
      "OpenAI 4o image only has 6 puppets with 2 tentacles being puppetless"
    • 对钟表显示时间的传统偏见提出测试建议
      "Did current models overcome the 10:10 bias?"
      "lets add the 'analog clock showing 3:15' as well"
  3. 模型风格与工作流程

    • 注意到不同模型的输出风格差异
      "4o has the temperature turned way down... while midjourney etc seem to have higher temperature"
    • 怀疑存在后期处理步骤
      "I don't believe any of these just generate the image though... several steps in each workflows"
  4. 内容适当性与道德限制

    • 对某些生成内容的工作场所适当性提出质疑
      "it not seeming the most work-appropriate"
    • 批评模型的过度道德审查
      "Gpt4o shows the huge annoyance of the company/model being a moral judge"
  5. 文章链接与技术分类争议

    • 指出文章标题与内容不符,混淆了图像生成与编辑的区别
      "the subject is actually prompt adherence in image generation from prompting"
    • 提供了更相关的正确链接
      "Actual link seems to be: https://genai-showdown.specr.net/image-editing"
  6. 其他观察

    • 注意到文章缺乏日期信息的问题
      "Odd there is no dates, at first glance one might think the pages were made at the same time"
    • 对特定提示词的生成难度提出测试建议
      "person riding in a kangaroo pouch... Most of the pure diffusion models haven't been able to do it"