文章摘要
这篇文章提出了一个评估图像生成模型的新基准测试——"墨西哥卷饼测试",通过让不同模型生成"被咬过的卷饼"图像来比较其表现。作者发现即使卷饼是常见食物,模型也难以准确呈现被咬后食材混合的状态,这比生成"骑马宇航员"等荒诞图像更具挑战性。文章展示了三种模型生成的卷饼图像效果,指出优化提示词可能改善结果,但这有作弊之嫌。
文章总结
《生成式卷饼测试:图像生成模型的关键基准》
本文最初灵感源自2023年流行的"骑马宇航员"网络迷因,但作者表示Simon提出的"鹈鹕自行车测试"才是真正延续这一想法的关键,尽管两者测试的模态不同。在作者看来,卷饼测试的重要性远超鹈鹕和骑马宇航员这类荒诞主题。
测试使用统一提示词:
一个被部分食用、内含奶酪、酸奶油、鳄梨酱、生菜、莎莎酱、斑豆和鸡肉的墨西哥卷饼
作者原以为这类常见食物在训练数据中应有大量样本(不像骑马宇航员那般荒诞),但实际生成效果却不尽如人意,推测可能是因为卷饼食材混合后形态复杂所致。所有图像均采用默认参数生成,作者认为刻意优化提示词有作弊之嫌。
文中展示了24个不同模型生成的卷饼图像,包括: - 经典模型:SD 1.5、Fast SDXL系列 - 迭代版本:Stable Diffusion v3.5大/中模型 - 新兴模型:Ideogram V2/V3、HiDream系列 - 特色模型:Nano Banana系列、Flux Pro等 - 企业级方案:Hunyuan V3、Bria 3.2等
(注:为保持简洁,此处省略具体模型名称列表,完整列表可参考原文图片标注)
这个看似简单的食物生成测试,实则揭示了当前AI图像生成技术在处理常见但结构复杂对象时的真实能力边界。
评论总结
以下是评论内容的总结:
对Nano Banana Pro的高度评价
- 多位用户认为Nano Banana Pro在生成部分被吃掉的墨西哥卷饼图像上表现最佳,效果真实自然。
- 引用:"Nano banana is incredible. What is their secret sauce?"
- 引用:"It’s the only one that actually looks like a partially eaten burrito at all to me."
对其他模型的批评
- 部分用户认为其他模型生成的图像看起来像摆拍的假食物,不够真实。
- 引用:"The others all look like staged marketing fake food."
- 引用:"For some reason ever since DALL-E 2, all food models seem to generate obviously fake food."
对图像细节的讨论
- 用户注意到一些图像中的豆子看起来过于干净和闪亮,与实际不符。
- 引用:"do they commonly have whole beans in them? I expect... more of a mushy/refried bean look."
- 引用:"I like how a couple of these basically show the model is confused between pinto beans and baked beans."
对基准测试的认可
- 用户认为墨西哥卷饼基准测试可能会成为行业标准,并对Nano Banana Pro的表现表示赞赏。
- 引用:"The burrito benchmark is poised to become an industry standard."
- 引用:"Very impressive, nano banana pro has this this wrapped up."
其他观点
- 有用户提到希望看到视频结果,并对Nano Banana Pro的表现表示期待。
- 引用:"Would be great to see video results for this as well."
- 引用:"Now I can generate fractal Sierpiński triangle peanut butter and jelly sandwiches."
总结:评论普遍认为Nano Banana Pro在生成真实食物图像方面表现突出,尤其是部分被吃掉的墨西哥卷饼,而其他模型则被认为生成效果不够自然。同时,用户对基准测试的设立表示认可,并期待更多相关内容的展示。