Hacker News 中文摘要

RSS订阅

生成式卷饼测试 -- The Generative Burrito Test

文章摘要

这篇文章提出了一个评估图像生成模型的新基准测试——"墨西哥卷饼测试",通过让不同模型生成"被咬过的卷饼"图像来比较其表现。作者发现即使卷饼是常见食物,模型也难以准确呈现被咬后食材混合的状态,这比生成"骑马宇航员"等荒诞图像更具挑战性。文章展示了三种模型生成的卷饼图像效果,指出优化提示词可能改善结果,但这有作弊之嫌。

文章总结

《生成式卷饼测试:图像生成模型的关键基准》

本文最初灵感源自2023年流行的"骑马宇航员"网络迷因,但作者表示Simon提出的"鹈鹕自行车测试"才是真正延续这一想法的关键,尽管两者测试的模态不同。在作者看来,卷饼测试的重要性远超鹈鹕和骑马宇航员这类荒诞主题。

测试使用统一提示词:

一个被部分食用、内含奶酪、酸奶油、鳄梨酱、生菜、莎莎酱、斑豆和鸡肉的墨西哥卷饼

作者原以为这类常见食物在训练数据中应有大量样本(不像骑马宇航员那般荒诞),但实际生成效果却不尽如人意,推测可能是因为卷饼食材混合后形态复杂所致。所有图像均采用默认参数生成,作者认为刻意优化提示词有作弊之嫌。

文中展示了24个不同模型生成的卷饼图像,包括: - 经典模型:SD 1.5、Fast SDXL系列 - 迭代版本:Stable Diffusion v3.5大/中模型 - 新兴模型:Ideogram V2/V3、HiDream系列 - 特色模型:Nano Banana系列、Flux Pro等 - 企业级方案:Hunyuan V3、Bria 3.2等

(注:为保持简洁,此处省略具体模型名称列表,完整列表可参考原文图片标注)

这个看似简单的食物生成测试,实则揭示了当前AI图像生成技术在处理常见但结构复杂对象时的真实能力边界。

评论总结

以下是评论内容的总结:

  1. 对Nano Banana Pro的高度评价

    • 多位用户认为Nano Banana Pro在生成部分被吃掉的墨西哥卷饼图像上表现最佳,效果真实自然。
    • 引用:"Nano banana is incredible. What is their secret sauce?"
    • 引用:"It’s the only one that actually looks like a partially eaten burrito at all to me."
  2. 对其他模型的批评

    • 部分用户认为其他模型生成的图像看起来像摆拍的假食物,不够真实。
    • 引用:"The others all look like staged marketing fake food."
    • 引用:"For some reason ever since DALL-E 2, all food models seem to generate obviously fake food."
  3. 对图像细节的讨论

    • 用户注意到一些图像中的豆子看起来过于干净和闪亮,与实际不符。
    • 引用:"do they commonly have whole beans in them? I expect... more of a mushy/refried bean look."
    • 引用:"I like how a couple of these basically show the model is confused between pinto beans and baked beans."
  4. 对基准测试的认可

    • 用户认为墨西哥卷饼基准测试可能会成为行业标准,并对Nano Banana Pro的表现表示赞赏。
    • 引用:"The burrito benchmark is poised to become an industry standard."
    • 引用:"Very impressive, nano banana pro has this this wrapped up."
  5. 其他观点

    • 有用户提到希望看到视频结果,并对Nano Banana Pro的表现表示期待。
    • 引用:"Would be great to see video results for this as well."
    • 引用:"Now I can generate fractal Sierpiński triangle peanut butter and jelly sandwiches."

总结:评论普遍认为Nano Banana Pro在生成真实食物图像方面表现突出,尤其是部分被吃掉的墨西哥卷饼,而其他模型则被认为生成效果不够自然。同时,用户对基准测试的设立表示认可,并期待更多相关内容的展示。