Hacker News 中文摘要

RSS订阅

Qwen3.6-35B-A3B在我的笔记本上画出的鹈鹕比Claude Opus 4.7更出色 -- Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7

文章摘要

作者在笔记本电脑上运行Qwen3.6-35B-A3B模型生成的鹈鹕骑自行车图像,比Claude Opus 4.7模型生成的更好。测试使用了20.9GB的量化模型在MacBook Pro M5上运行,展示了不同AI模型在特定任务上的表现差异。

文章总结

标题:笔记本上的Qwen3.6-35B-A3B画出了比Claude Opus 4.7更棒的鹈鹕

主要内容:

  1. 模型对比测试
    作者通过“鹈鹕骑自行车”这一趣味性测试,对比了阿里云的Qwen3.6-35B-A3B和Anthropic的Claude Opus 4.7两款大模型的表现。测试结果显示,Qwen3.6生成的图像在自行车结构、鹈鹕形态和整体创意上更胜一筹。

  2. 测试细节

    • Qwen3.6的表现:生成的鹈鹕自行车结构正确,天空有云朵,鹈鹕的喉囊略显呆萌,地面还标注了“Pelican on a Bicycle!”的文字。
    • Claude Opus 4.7的表现:自行车结构错误,天空无云朵,鹈鹕的喉囊不够突出,整体缺乏细节。
    • 作者还尝试让Claude Opus以“最高思考级别”重新生成,但改进有限。
  3. 额外测试:火烈鸟骑独轮车
    为了验证模型是否针对“鹈鹕骑自行车”进行了专门训练,作者新增了“火烈鸟骑独轮车”的测试。Qwen3.6生成的图像更具个性(火烈鸟戴墨镜、打领结、叼香烟),而Claude Opus的生成结果则显得平淡无奇。

  4. 测试的意义与局限性

    • 作者强调,这一测试原本是玩笑性质,但有趣的是,模型的生成质量与其实际用途存在一定的相关性。
    • 然而,此次测试打破了这一关联:尽管Qwen3.6在生成图像上表现更好,但作者认为其整体能力未必优于Claude Opus 4.7。
    • 测试结果更多反映了模型在特定任务上的表现,而非综合能力。
  5. 结论
    如果用户需要生成“鹈鹕骑自行车”或类似趣味图像,Qwen3.6-35B-A3B可能是更好的选择;但对于其他更广泛的用途,仍需进一步评估。

删减内容:

  • 文章中的赞助商信息、作者社交媒体链接、历史文章推荐等与主题无关的内容。
  • 部分重复的测试细节和图片描述,以保持简洁。

评论总结

以下是评论内容的总结,平衡呈现不同观点并保留关键引用:

  1. 关于Qwen与Opus模型对比的争议

    • 批评Qwen在物理现实表现上不如Opus:"Opus flamingo is actually on the pedals...Qwen is completely off"(评论1)
    • 但有人赞赏Qwen的艺术性:"That Qwen flamingo on the unicycle is actually quite good"(评论8)
  2. Qwen模型性能评价

    • 编码能力提升有限:"qwen 3.6 35b a3b solved 11/98...compared to 10/98 for 3.5"(评论4)
    • 工作流处理获好评:"impressively good...huge jump in the quality of the tool calls"(评论2)
  3. 对测试方法的质疑

    • 认为鹈鹕测试已过时:"what this pelican still proofs...might be more worthwhile to mix different animals"(评论3)
    • 完全否定测试价值:"cannot believe people are wasting their time doing this"(评论10)
  4. 实际应用反馈

    • 安全审查表现:"pretty good at finding bugs, but not so good at writing patches"(评论9)
    • 修改能力不足:"trying to say 'make this small change' seems impossible"(评论12)
  5. 硬件配置备注

    • 测试环境说明:"using a 128GB M5 MacBook Pro"(评论13)

注:部分评论(如5,7,11)因内容过于简略或偏离主题未纳入主要观点总结。