Hacker News 中文摘要

文章摘要

这篇文章提出了一个评估图像生成模型的新基准测试——"墨西哥卷饼测试"，通过让不同模型生成"被咬过的卷饼"图像来比较其表现。作者发现即使卷饼是常见食物，模型也难以准确呈现被咬后食材混合的状态，这比生成"骑马宇航员"等荒诞图像更具挑战性。文章展示了三种模型生成的卷饼图像效果，指出优化提示词可能改善结果，但这有作弊之嫌。

文章总结

《生成式卷饼测试：图像生成模型的关键基准》

本文最初灵感源自2023年流行的"骑马宇航员"网络迷因，但作者表示Simon提出的"鹈鹕自行车测试"才是真正延续这一想法的关键，尽管两者测试的模态不同。在作者看来，卷饼测试的重要性远超鹈鹕和骑马宇航员这类荒诞主题。

测试使用统一提示词：

一个被部分食用、内含奶酪、酸奶油、鳄梨酱、生菜、莎莎酱、斑豆和鸡肉的墨西哥卷饼

作者原以为这类常见食物在训练数据中应有大量样本（不像骑马宇航员那般荒诞），但实际生成效果却不尽如人意，推测可能是因为卷饼食材混合后形态复杂所致。所有图像均采用默认参数生成，作者认为刻意优化提示词有作弊之嫌。

文中展示了24个不同模型生成的卷饼图像，包括： - 经典模型：SD 1.5、Fast SDXL系列 - 迭代版本：Stable Diffusion v3.5大/中模型 - 新兴模型：Ideogram V2/V3、HiDream系列 - 特色模型：Nano Banana系列、Flux Pro等 - 企业级方案：Hunyuan V3、Bria 3.2等

（注：为保持简洁，此处省略具体模型名称列表，完整列表可参考原文图片标注）

这个看似简单的食物生成测试，实则揭示了当前AI图像生成技术在处理常见但结构复杂对象时的真实能力边界。

评论总结

以下是评论内容的总结：

对Nano Banana Pro的高度评价
- 多位用户认为Nano Banana Pro在生成部分被吃掉的墨西哥卷饼图像上表现最佳，效果真实自然。
- 引用："Nano banana is incredible. What is their secret sauce?"
- 引用："It’s the only one that actually looks like a partially eaten burrito at all to me."
对其他模型的批评
- 部分用户认为其他模型生成的图像看起来像摆拍的假食物，不够真实。
- 引用："The others all look like staged marketing fake food."
- 引用："For some reason ever since DALL-E 2, all food models seem to generate obviously fake food."
对图像细节的讨论
- 用户注意到一些图像中的豆子看起来过于干净和闪亮，与实际不符。
- 引用："do they commonly have whole beans in them? I expect... more of a mushy/refried bean look."
- 引用："I like how a couple of these basically show the model is confused between pinto beans and baked beans."
对基准测试的认可
- 用户认为墨西哥卷饼基准测试可能会成为行业标准，并对Nano Banana Pro的表现表示赞赏。
- 引用："The burrito benchmark is poised to become an industry standard."
- 引用："Very impressive, nano banana pro has this this wrapped up."
其他观点
- 有用户提到希望看到视频结果，并对Nano Banana Pro的表现表示期待。
- 引用："Would be great to see video results for this as well."
- 引用："Now I can generate fractal Sierpiński triangle peanut butter and jelly sandwiches."

总结：评论普遍认为Nano Banana Pro在生成真实食物图像方面表现突出，尤其是部分被吃掉的墨西哥卷饼，而其他模型则被认为生成效果不够自然。同时，用户对基准测试的设立表示认可，并期待更多相关内容的展示。

生成式卷饼测试 -- The Generative Burrito Test

文章摘要

文章总结

评论总结