Hacker News 中文摘要

文章摘要

作者在笔记本电脑上运行Qwen3.6-35B-A3B模型生成的鹈鹕骑自行车图像，比Claude Opus 4.7模型生成的更好。测试使用了20.9GB的量化模型在MacBook Pro M5上运行，展示了不同AI模型在特定任务上的表现差异。

文章总结

标题：笔记本上的Qwen3.6-35B-A3B画出了比Claude Opus 4.7更棒的鹈鹕

主要内容：

模型对比测试
作者通过“鹈鹕骑自行车”这一趣味性测试，对比了阿里云的Qwen3.6-35B-A3B和Anthropic的Claude Opus 4.7两款大模型的表现。测试结果显示，Qwen3.6生成的图像在自行车结构、鹈鹕形态和整体创意上更胜一筹。
测试细节
- Qwen3.6的表现：生成的鹈鹕自行车结构正确，天空有云朵，鹈鹕的喉囊略显呆萌，地面还标注了“Pelican on a Bicycle!”的文字。
- Claude Opus 4.7的表现：自行车结构错误，天空无云朵，鹈鹕的喉囊不够突出，整体缺乏细节。
- 作者还尝试让Claude Opus以“最高思考级别”重新生成，但改进有限。
额外测试：火烈鸟骑独轮车
为了验证模型是否针对“鹈鹕骑自行车”进行了专门训练，作者新增了“火烈鸟骑独轮车”的测试。Qwen3.6生成的图像更具个性（火烈鸟戴墨镜、打领结、叼香烟），而Claude Opus的生成结果则显得平淡无奇。
测试的意义与局限性
- 作者强调，这一测试原本是玩笑性质，但有趣的是，模型的生成质量与其实际用途存在一定的相关性。
- 然而，此次测试打破了这一关联：尽管Qwen3.6在生成图像上表现更好，但作者认为其整体能力未必优于Claude Opus 4.7。
- 测试结果更多反映了模型在特定任务上的表现，而非综合能力。
结论
如果用户需要生成“鹈鹕骑自行车”或类似趣味图像，Qwen3.6-35B-A3B可能是更好的选择；但对于其他更广泛的用途，仍需进一步评估。

删减内容：

文章中的赞助商信息、作者社交媒体链接、历史文章推荐等与主题无关的内容。
部分重复的测试细节和图片描述，以保持简洁。

评论总结

以下是评论内容的总结，平衡呈现不同观点并保留关键引用：

关于Qwen与Opus模型对比的争议
- 批评Qwen在物理现实表现上不如Opus："Opus flamingo is actually on the pedals...Qwen is completely off"（评论1）
- 但有人赞赏Qwen的艺术性："That Qwen flamingo on the unicycle is actually quite good"（评论8）
Qwen模型性能评价
- 编码能力提升有限："qwen 3.6 35b a3b solved 11/98...compared to 10/98 for 3.5"（评论4）
- 工作流处理获好评："impressively good...huge jump in the quality of the tool calls"（评论2）
对测试方法的质疑
- 认为鹈鹕测试已过时："what this pelican still proofs...might be more worthwhile to mix different animals"（评论3）
- 完全否定测试价值："cannot believe people are wasting their time doing this"（评论10）
实际应用反馈
- 安全审查表现："pretty good at finding bugs, but not so good at writing patches"（评论9）
- 修改能力不足："trying to say 'make this small change' seems impossible"（评论12）
硬件配置备注
- 测试环境说明："using a 128GB M5 MacBook Pro"（评论13）

注：部分评论（如5,7,11）因内容过于简略或偏离主题未纳入主要观点总结。

Qwen3.6-35B-A3B在我的笔记本上画出的鹈鹕比Claude Opus 4.7更出色 -- Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7

文章摘要

文章总结

标题：笔记本上的Qwen3.6-35B-A3B画出了比Claude Opus 4.7更棒的鹈鹕

主要内容：

删减内容：

评论总结