Hacker News 中文摘要

RSS订阅

与神话共事是什么感觉 -- What it feels like to work with Mythos

文章摘要

作者体验了最新AI模型Claude 5 Fable,发现其性能远超现有公开模型,能处理复杂任务并持续工作十余小时,甚至能生成高水平的学术论文。这表明AI能力实现了质的飞跃,同时预示着人类与AI的关系正在发生深刻变革。

文章总结

标题:与Mythos合作是怎样一种体验

我有幸提前体验了首款向公众发布的Mythos级AI模型——Claude 5 Fable。虽然关于Mythos的讨论多聚焦于其对软件安全的影响,但我测试了除安全领域外的各项功能(Fable的安全限制使其无法用于网络安全)。我的结论是:这确实代表着AI能力的重大飞跃,更重要的是,它预示着人类与AI的关系正在发生深刻变革。

首先谈谈Fable的实际表现。在系列测试中,它的表现远超其他公开模型,能处理各类复杂问题并产出惊人成果——比如连续工作12小时完成多页规格任务。虽然部分专业成果(如仅通过单次提示就生成尖端社会科学论文,或创作全篇以S开头的10页史诗诗)可能只吸引特定读者,但更直观的案例是它开发的几款游戏:包括硬币翻转游戏具有自我意识的贪吃蛇,以及地下探索游戏。值得注意的是,这些游戏的图像完全通过数学算法生成,未使用任何外部素材。

真正令人震撼的是Fable的工作方式。以构建等时线地图(显示特定时间内可到达区域)为例,传统方法需要研究数千条路线数据。Fable不仅自主调用多个子AI(主要是成本更低的Claude Sonnet)搜集2200多条航班信息、全球高铁时刻表和各国公路数据,还同步编写代码并启动验证程序。最终成果交互地图虽存在偏远地区数据估算问题,但经反馈后,AI通过建立对抗性研究小组,连太平洋皮特凯恩岛的船期和加拿大格赖斯峡湾的路线都精确计算出来。

更深层的震撼来自我参与的极限测试:要求Fable开发能校准人类与AI判断的研究软件"Concord"。AI先产出19页设计文档,随后连续工作9.5小时完成开发,最终成果已开源。作为专家我能发现部分疏漏,但整体完成度远超预期——这正是学界急需却因成本过高未能实现的工具。

这种强大伴随三个特性: 1. 高昂成本:Fable的token消耗速度惊人,虽通过智能分配廉价模型降低成本,但生产环境费用仍将十分可观 2. 严格限制:稍有安全疑虑就会降级至Claude 4.8 Opus 3. 决策黑箱:数百个微决策完全由AI自主完成,用户仅能对最终结果提出修改

这种合作模式让我从"巫师"(念咒施法者)变成了"委托人"(提出需求并验收成果的甲方)。最根本的转变在于:工作重心从过程控制转向结果验收。或许未来界面改进能增加透明度,但更可能的是——模型越强大,人类需要参与的环节就越少,黑箱正是获得这种力量必须支付的代价。

(注:保留核心案例及技术细节,删减部分重复性描述和次要图片说明,优化长难句为符合中文阅读习惯的短句结构)

评论总结

以下是评论内容的总结,平衡呈现不同观点并保留关键引用:

【负面评价】 1. 对作者动机的质疑 - 认为作者是"AI hype-beast"(catigula)和"AI shill"(asdK120) - 质疑是营销软文:"More Mythos Marketing"(the_doctah)、"he's being paid to write this"(honeycrispy)

  1. 对模型效果的批评
  • 认为输出质量不高:"the poem it made is terrible"(neaden)
  • 质疑长时间工作不代表优质:"I don't see why working longer is a pro"(wxw)
  • 指出历史数据错误:"The first item on the article...was wrong"(Aperocky)
  1. 技术担忧
  • 安全假设危险:"a very dangerous, and unrealistic, assumption"(olafmol)
  • 验证困难:"With LLMs the verification part is what bothers me the most"(eithed)

【正面评价】 1. 模型能力认可 - 用户实测效果:"it outperformed basically every other public model"(zuzululu) - 纠错能力强:"Fable found almost every error I found"(JumpCrisscross) - 工作更彻底:"doing the right thing by not leaving any stone unturned"(mohsen1)

  1. 具体成果肯定
  • 可视化成果:"The isochrone maps are quite beautiful"(pu_pe)
  • 游戏体验:"The snake game is legit very fun"(mjamesaustin)

【中立观点】 1. 使用体验差异 - 不同用户感受差异大:"What are people working on that they see such a substantial difference"(selfawareMammal) - 存在使用限制:"Fable 5 has safety measures that flag messages"(thepasch)

  1. 技术讨论
  • 效率与质量平衡:"it is very dissonant to see the industry heading towards hour+ long workflows"(gopalv)
  • 成本问题:"it also burned through my usage quota"(JumpCrisscross)

关键数据引用: - 工作时长:"It worked for nine and a half hours"(gopalv) - token消耗:"475k tokens in the screenshot"(vb-8448) - 比较优势:"Qwen 3.7-Plus is better at reasoning than Mythos"(382hi)