Hacker News 中文摘要

文章摘要

文章质疑了Mythos在安全漏洞检测方面的真实能力，认为其未广泛开放可能出于成本考虑而非技术优势。作者通过构建基准测试套件，对比不同模型识别漏洞的效果，以验证Mythos是否名副其实。

文章总结

好的，这是根据您的要求，对原文进行中文重述和精简后的版本：

标题：它能像“神话”一样吗？

核心问题： 作者对Anthropic公司宣称其“Mythos”模型在发现安全漏洞方面具有独特强大能力表示怀疑，认为这可能只是炒作，或者其不对外开放的真正原因是运营成本过高。

实验设计： 为了验证，作者（主要借助Claude）创建了一个基准测试套件。该套件收集了Mythos官方文档中公布的、由其发现的真实漏洞。作者找到这些漏洞修复前的代码提交，并确认顶级模型（如Opus）在直接指向问题代码时能够识别和理解该漏洞。然后，将这些漏洞案例加入语料库，用于测试其他模型在无提示的情况下，能否准确检测和描述这些漏洞。所有案例的漏洞都发生在所有模型的知识截止日期之后，确保模型无法凭记忆回答。

测试方法与局限： 1. 测试环境： 模型被给予问题文件和一个简单的测试工具，没有提示，只能自行查看整个代码仓库。 2. 难度： 最难的漏洞涉及多个文件，需要理解上下文才能发现，这对任何安全审查者（无论是人类还是AI）都是难题。作者推测Mythos可能使用了更高级的工具（如调试器、模糊测试）。 3. 防作弊： 模型运行在全新容器中，移除了.git目录，但仍有网络访问权限，理论上可能查询相关CVE信息，但作者未发现此迹象。 4. 数据有限： 每个模型对每个已知漏洞只运行一次，数据量不大，但作者认为仍能提供有趣且有价值的信息。所有模型拥有相同的机会和工具（Claude模型除外，它们使用了Claude Code），结果表现各异，但都低于作者的预期。

关于智能体（Agent）的说明： 作者最初尝试让所有模型在功能完整的智能体中运行，但发现这并未提升性能，反而增加了时间和成本。因此，最终只有Claude模型在智能体中运行（因为对订阅用户来说成本更低），其他模型均使用基础API。

主要结果与意外发现： * 排名： 基准测试结果以HTML报告形式呈现。GPT 5.5 Pro因预算耗尽仅完成4个案例而排名靠前。Qwen模型因未完成所有案例，其检测率被高估。 * 后续更新： 测试持续进行，加入了Gemma 4、MiniMax M3、GLM 5.2等模型。Gemma 4 MoE表现突出，检测到4/9的漏洞，包括一个只有Opus之前发现过的“硬”漏洞，但其稳定性较差，容易陷入循环。 * 意外亮点： * Qwen 3.6 27B 表现远超其体量，击败了包括Sonnet和Gemini 3.1 Pro在内的多个更大或更贵的商业模型。 * Gemini 3.5 Flash 表现优于其大哥Gemini 3.1 Pro。 * 廉价中国模型表现出色： MiMo和DeepSeek在性能上与Opus 4.8和GPT 5.5直接竞争，但价格低一个数量级。DeepSeek速度最快，MiMo性价比最高。 * 失败案例： * Mistral Medium 完全失败，未返回任何结果，作者怀疑是安全限制所致。 * Laguna M.1 未能发现任何已知漏洞，但报告了一个被Opus判定为真实的其他漏洞，说明其能力不足。 * Haiku和Sonnet 在安全审计方面表现不佳，性价比低。 * agy（Gemini的CLI工具） 因安全限制直接拒绝执行任务，被作者从排名中移除。

结论： 作者认为，这个基准测试给出的答案是“也许”。Mythos可能确实比当前其他公开模型更擅长发现安全漏洞，因为它找到了本次实验中其他模型都未能发现的4个漏洞。然而，Opus在获得足够线索后能理解所有漏洞，这表明当前最好的公开模型在拥有足够时间、机会和工具的情况下，也有可能发现这些漏洞。目前的测试工具和提示词还比较初级，未来通过改进，或许能提升公开模型的表现。

评论总结

根据评论内容，总结如下：

主要观点与论据：

Fable/Mythos 模型能力显著提升（评分：正面）
- 多位用户认为 Fable 在逆向工程、二进制分析等任务上远超 Opus（如评论5、9、15）。
- 关键引用：评论5 "Fable was easily a step change in capability over Opus - figuring things out in reverse engineering binaries that Opus plain couldn't find"；评论15 "Fable felt like having access to that 'old Opus' again, but a little smarter"。
模型存在局限性（评分：中性/负面）
- 部分用户指出模型在安全任务中需明确指引（评论1），或存在“被阉割”现象（评论12、13、15）。
- 关键引用：评论1 "if you tell them what to look for... but they're not told what to look for"；评论15 "Opus 4.6 was excellent... then it got lobotomized"。
基准测试方法存疑（评分：中性）
- 评论10指出测试方法需改进，评论16质疑文章标题与结果不符（未包含Mythos数据）。
- 关键引用：评论10 "The benchmark fills an interesting niche, but the methods need work"；评论16 "the results don't contain Mythos, do they?"。
竞争模型表现（评分：中性）
- 评论11提到开源中国模型在多数任务上超越Google模型，评论17指出GLM-5.2可能带来更大威胁。
- 关键引用：评论11 "open source chinese models are beating 3.1 Pro and 3.5.Flash"；评论17 "glm-5.2 will probably enable way more cyber attacks than fable ever could"。

平衡性总结： - 正面观点：Fable/Mythos在特定安全任务中表现突出，尤其擅长逆向工程和复杂逻辑推理。 - 负面观点：模型存在“被阉割”问题，且需明确指引才能发挥能力；基准测试方法不完善。 - 中立观点：模型能力提升有限，且竞争模型（如GLM-5.2）可能带来更大风险。

它会神话化吗？ -- Will It Mythos?

文章摘要

文章总结

评论总结