Hacker News 中文摘要

文章摘要

该文章对比了多种先进的图像编辑模型，通过特定提示和挑战测试它们在文本指令图像修改方面的表现，包括多个创意案例的展示。

文章总结

GenAI图像编辑大对决：主流模型能力横评

核心内容概述

该评测对7款前沿AI图像编辑模型进行了12项针对性测试，重点关注基于文本指令的图片修改能力。测试采用统一标准：禁止多次提示修正，必须单次完成编辑任务；仅允许纯文本指令操作，禁用img2img或手动遮罩等辅助手段。

模型表现排名

Seedream 4 - 12项测试通过9项
Gemini 2.5 Flash - 通过7项
Qwen-Image-Edit - 通过6项
FLUX.1 Kontext [dev] - 通过5项
OpenAI gpt-image-1 - 通过4项
OmniGen2 - 仅通过1项

典型测试案例

发型改造
- 任务：为秃头男性添加浓密头发（参考《宋飞正传》George角色）
- 最佳表现：Seedream 4一次成功，但发型类似斯大林；Gemini 2.5需2次尝试
积木位置交换
- 任务：交换蓝黄积木的物理位置（非颜色替换）
- 结果：所有模型均失败，多数仅能交换颜色
经典画作修改
- 任务：在葛饰北斋《神奈川冲浪里》添加冲浪者
- 亮点：Gemini 2.5完美保持原画风格，FLUX.1倾向生成剪影效果
复杂场景改造
- 任务：清理街道垃圾、替换流浪汉为长椅、改造停车计时器为树木
- 胜出者：Seedream 4在10次尝试后达成"房地产广告级"效果

关键发现

局部编辑难题：修正比萨斜塔倾斜度时，仅2款模型能保持周边环境不变
风格保持：多数模型难以在修改《戴珍珠耳环的少女》室内光线时保留原画质感
细节控制：移除M&M糖果中棕色颗粒的测试，仅Seedream 4达标

技术限制

多目标修改会导致图像质量逐次衰减（类似VHS磁带反复拷贝）
模型对"替换警告牌袋鼠为沙虫"等抽象指令理解不足
卡牌花色修改时，多数模型无法保持扑克牌特定设计规范

评测方法论

提示词设计包含文化梗（如范海伦乐队M&M糖果合同条款）
原始图像故意保留磨损、划痕等真实细节
允许模型在保持核心要素前提下调整元素位置

（注：原文中大量重复的图片链接、技术术语及尝试次数数据已精简，保留最具代表性的案例说明）

评论总结

以下是评论内容的总结，涵盖主要观点和论据，并保持不同观点的平衡性：

关于提示（prompt）的使用问题
- 有评论指出在提示中重复图像已有信息（如“塔向右倾斜”）会导致模型输出结果偏差。
  引用："That context is already in the image, and passing that as a prompt will only make the model apt to lean the tower in the result." (joomla199)
- 也有评论认为测试中的提示设计不够专业，更像是新手随意输入的内容。
  引用："they were the kind of prompt your dad would type in not knowing how to push the right buttons." (keyle)
对Gemini 2.5 Flash Image/Nano Banana的评价
- 有用户高度评价该模型，认为其能力强大且性价比高，尤其擅长处理复杂提示。
  引用："it's substantially more powerful than most other models while at the same price-per-image" (minimaxir)
- 但另一用户指出该模型在建筑和景观设计方面表现不佳。
  引用："it absolutely struggles at exterior architecture and landscaping." (lxe)
对AI生成图像质量的看法
- 有评论认为AI生成的图像在真实感上仍有不足，如头发和树木看起来不自然。
  引用："George's hair...looks over the top, or brushed on. The tree...looks plastic or too homogenized." (hackthemack)
- 也有用户对技术进步表示赞赏，认为相比早期模型已有巨大提升。
  引用："All these demos look incredible compared to SD1, 2 & 3." (roenxi)
其他观点
- 有用户提到对特定模型（如reve）的测试结果感兴趣。
  引用："reve...should be in the running and would be very curious to see the results!" (jimmyl02)
- 还有用户对传统图库的未来表示质疑，认为AI生成图像可能取代部分需求。
  引用："I wonder how much longer those annoying stock photo database will continue." (lschueller)
文化参考
- 有评论认为测试中的“用长椅替换流浪汉”图像可能影射了某部电视剧的段子。
  引用："a reference to some TV show making a gentrification joke." (CobrastanJorji)

总结：评论反映了对AI图像生成技术不同方面的关注，包括提示设计、模型性能、图像质量以及行业影响等，观点多样且有一定争议。

生成式AI图像编辑对决 -- Generative AI Image Editing Showdown