Hacker News 中文摘要

RSS订阅

生成式AI图像编辑对决 -- Generative AI Image Editing Showdown

文章摘要

该文章对比了多种先进的图像编辑模型,通过特定提示和挑战测试它们在文本指令图像修改方面的表现,包括多个创意案例的展示。

文章总结

GenAI图像编辑大对决:主流模型能力横评

核心内容概述

该评测对7款前沿AI图像编辑模型进行了12项针对性测试,重点关注基于文本指令的图片修改能力。测试采用统一标准:禁止多次提示修正,必须单次完成编辑任务;仅允许纯文本指令操作,禁用img2img或手动遮罩等辅助手段。

模型表现排名

  1. Seedream 4 - 12项测试通过9项
  2. Gemini 2.5 Flash - 通过7项
  3. Qwen-Image-Edit - 通过6项
  4. FLUX.1 Kontext [dev] - 通过5项
  5. OpenAI gpt-image-1 - 通过4项
  6. OmniGen2 - 仅通过1项

典型测试案例

  1. 发型改造

    • 任务:为秃头男性添加浓密头发(参考《宋飞正传》George角色)
    • 最佳表现:Seedream 4一次成功,但发型类似斯大林;Gemini 2.5需2次尝试
  2. 积木位置交换

    • 任务:交换蓝黄积木的物理位置(非颜色替换)
    • 结果:所有模型均失败,多数仅能交换颜色
  3. 经典画作修改

    • 任务:在葛饰北斋《神奈川冲浪里》添加冲浪者
    • 亮点:Gemini 2.5完美保持原画风格,FLUX.1倾向生成剪影效果
  4. 复杂场景改造

    • 任务:清理街道垃圾、替换流浪汉为长椅、改造停车计时器为树木
    • 胜出者:Seedream 4在10次尝试后达成"房地产广告级"效果

关键发现

  • 局部编辑难题:修正比萨斜塔倾斜度时,仅2款模型能保持周边环境不变
  • 风格保持:多数模型难以在修改《戴珍珠耳环的少女》室内光线时保留原画质感
  • 细节控制:移除M&M糖果中棕色颗粒的测试,仅Seedream 4达标

技术限制

  • 多目标修改会导致图像质量逐次衰减(类似VHS磁带反复拷贝)
  • 模型对"替换警告牌袋鼠为沙虫"等抽象指令理解不足
  • 卡牌花色修改时,多数模型无法保持扑克牌特定设计规范

评测方法论

  • 提示词设计包含文化梗(如范海伦乐队M&M糖果合同条款)
  • 原始图像故意保留磨损、划痕等真实细节
  • 允许模型在保持核心要素前提下调整元素位置

(注:原文中大量重复的图片链接、技术术语及尝试次数数据已精简,保留最具代表性的案例说明)

评论总结

以下是评论内容的总结,涵盖主要观点和论据,并保持不同观点的平衡性:

  1. 关于提示(prompt)的使用问题

    • 有评论指出在提示中重复图像已有信息(如“塔向右倾斜”)会导致模型输出结果偏差。
      引用:"That context is already in the image, and passing that as a prompt will only make the model apt to lean the tower in the result." (joomla199)
    • 也有评论认为测试中的提示设计不够专业,更像是新手随意输入的内容。
      引用:"they were the kind of prompt your dad would type in not knowing how to push the right buttons." (keyle)
  2. 对Gemini 2.5 Flash Image/Nano Banana的评价

    • 有用户高度评价该模型,认为其能力强大且性价比高,尤其擅长处理复杂提示。
      引用:"it's substantially more powerful than most other models while at the same price-per-image" (minimaxir)
    • 但另一用户指出该模型在建筑和景观设计方面表现不佳。
      引用:"it absolutely struggles at exterior architecture and landscaping." (lxe)
  3. 对AI生成图像质量的看法

    • 有评论认为AI生成的图像在真实感上仍有不足,如头发和树木看起来不自然。
      引用:"George's hair...looks over the top, or brushed on. The tree...looks plastic or too homogenized." (hackthemack)
    • 也有用户对技术进步表示赞赏,认为相比早期模型已有巨大提升。
      引用:"All these demos look incredible compared to SD1, 2 & 3." (roenxi)
  4. 其他观点

    • 有用户提到对特定模型(如reve)的测试结果感兴趣。
      引用:"reve...should be in the running and would be very curious to see the results!" (jimmyl02)
    • 还有用户对传统图库的未来表示质疑,认为AI生成图像可能取代部分需求。
      引用:"I wonder how much longer those annoying stock photo database will continue." (lschueller)
  5. 文化参考

    • 有评论认为测试中的“用长椅替换流浪汉”图像可能影射了某部电视剧的段子。
      引用:"a reference to some TV show making a gentrification joke." (CobrastanJorji)

总结:评论反映了对AI图像生成技术不同方面的关注,包括提示设计、模型性能、图像质量以及行业影响等,观点多样且有一定争议。