Hacker News 中文摘要

RSS订阅

它会神话化吗? -- Will It Mythos?

文章摘要

文章质疑了Mythos在安全漏洞检测方面的真实能力,认为其未广泛开放可能出于成本考虑而非技术优势。作者通过构建基准测试套件,对比不同模型识别漏洞的效果,以验证Mythos是否名副其实。

文章总结

好的,这是根据您的要求,对原文进行中文重述和精简后的版本:

标题:它能像“神话”一样吗?

核心问题: 作者对Anthropic公司宣称其“Mythos”模型在发现安全漏洞方面具有独特强大能力表示怀疑,认为这可能只是炒作,或者其不对外开放的真正原因是运营成本过高。

实验设计: 为了验证,作者(主要借助Claude)创建了一个基准测试套件。该套件收集了Mythos官方文档中公布的、由其发现的真实漏洞。作者找到这些漏洞修复前的代码提交,并确认顶级模型(如Opus)在直接指向问题代码时能够识别和理解该漏洞。然后,将这些漏洞案例加入语料库,用于测试其他模型在无提示的情况下,能否准确检测和描述这些漏洞。所有案例的漏洞都发生在所有模型的知识截止日期之后,确保模型无法凭记忆回答。

测试方法与局限: 1. 测试环境: 模型被给予问题文件和一个简单的测试工具,没有提示,只能自行查看整个代码仓库。 2. 难度: 最难的漏洞涉及多个文件,需要理解上下文才能发现,这对任何安全审查者(无论是人类还是AI)都是难题。作者推测Mythos可能使用了更高级的工具(如调试器、模糊测试)。 3. 防作弊: 模型运行在全新容器中,移除了.git目录,但仍有网络访问权限,理论上可能查询相关CVE信息,但作者未发现此迹象。 4. 数据有限: 每个模型对每个已知漏洞只运行一次,数据量不大,但作者认为仍能提供有趣且有价值的信息。所有模型拥有相同的机会和工具(Claude模型除外,它们使用了Claude Code),结果表现各异,但都低于作者的预期。

关于智能体(Agent)的说明: 作者最初尝试让所有模型在功能完整的智能体中运行,但发现这并未提升性能,反而增加了时间和成本。因此,最终只有Claude模型在智能体中运行(因为对订阅用户来说成本更低),其他模型均使用基础API。

主要结果与意外发现: * 排名: 基准测试结果以HTML报告形式呈现。GPT 5.5 Pro因预算耗尽仅完成4个案例而排名靠前。Qwen模型因未完成所有案例,其检测率被高估。 * 后续更新: 测试持续进行,加入了Gemma 4、MiniMax M3、GLM 5.2等模型。Gemma 4 MoE表现突出,检测到4/9的漏洞,包括一个只有Opus之前发现过的“硬”漏洞,但其稳定性较差,容易陷入循环。 * 意外亮点: * Qwen 3.6 27B 表现远超其体量,击败了包括Sonnet和Gemini 3.1 Pro在内的多个更大或更贵的商业模型。 * Gemini 3.5 Flash 表现优于其大哥Gemini 3.1 Pro。 * 廉价中国模型表现出色: MiMo和DeepSeek在性能上与Opus 4.8和GPT 5.5直接竞争,但价格低一个数量级。DeepSeek速度最快,MiMo性价比最高。 * 失败案例: * Mistral Medium 完全失败,未返回任何结果,作者怀疑是安全限制所致。 * Laguna M.1 未能发现任何已知漏洞,但报告了一个被Opus判定为真实的其他漏洞,说明其能力不足。 * Haiku和Sonnet 在安全审计方面表现不佳,性价比低。 * agy(Gemini的CLI工具) 因安全限制直接拒绝执行任务,被作者从排名中移除。

结论: 作者认为,这个基准测试给出的答案是“也许”。Mythos可能确实比当前其他公开模型更擅长发现安全漏洞,因为它找到了本次实验中其他模型都未能发现的4个漏洞。然而,Opus在获得足够线索后能理解所有漏洞,这表明当前最好的公开模型在拥有足够时间、机会和工具的情况下,也有可能发现这些漏洞。目前的测试工具和提示词还比较初级,未来通过改进,或许能提升公开模型的表现。

评论总结

根据评论内容,总结如下:

主要观点与论据:

  1. Fable/Mythos 模型能力显著提升(评分:正面)

    • 多位用户认为 Fable 在逆向工程、二进制分析等任务上远超 Opus(如评论5、9、15)。
    • 关键引用:评论5 "Fable was easily a step change in capability over Opus - figuring things out in reverse engineering binaries that Opus plain couldn't find";评论15 "Fable felt like having access to that 'old Opus' again, but a little smarter"。
  2. 模型存在局限性(评分:中性/负面)

    • 部分用户指出模型在安全任务中需明确指引(评论1),或存在“被阉割”现象(评论12、13、15)。
    • 关键引用:评论1 "if you tell them what to look for... but they're not told what to look for";评论15 "Opus 4.6 was excellent... then it got lobotomized"。
  3. 基准测试方法存疑(评分:中性)

    • 评论10指出测试方法需改进,评论16质疑文章标题与结果不符(未包含Mythos数据)。
    • 关键引用:评论10 "The benchmark fills an interesting niche, but the methods need work";评论16 "the results don't contain Mythos, do they?"。
  4. 竞争模型表现(评分:中性)

    • 评论11提到开源中国模型在多数任务上超越Google模型,评论17指出GLM-5.2可能带来更大威胁。
    • 关键引用:评论11 "open source chinese models are beating 3.1 Pro and 3.5.Flash";评论17 "glm-5.2 will probably enable way more cyber attacks than fable ever could"。

平衡性总结: - 正面观点:Fable/Mythos在特定安全任务中表现突出,尤其擅长逆向工程和复杂逻辑推理。 - 负面观点:模型存在“被阉割”问题,且需明确指引才能发挥能力;基准测试方法不完善。 - 中立观点:模型能力提升有限,且竞争模型(如GLM-5.2)可能带来更大风险。