文章摘要
Claude Code的“扩展思考”输出并非真实的推理过程,而是经过加密和摘要处理的结果。Anthropic持有加密密钥,用户只能获得推理摘要而非完整内容,完整输出需企业协议。这提醒用户不要将其作为审计依据。
文章总结
好的,这是根据您的要求,对原文主要内容进行的中文重述,保留了关键细节,并删减了与主题无关的评论。
文章标题:Claude Code“扩展思考”输出的文本并非真实思考过程
文章指出,Claude Code 会将每次会话记录到本地磁盘,其中包含“思考块”,即模型工作时的推理过程。然而,作者在检查这些日志时,发现其中只有一段600字符长的“签名”,而没有实际的文本内容。
根据官方文档,关键信息如下:
- Claude 会将其推理过程加密成上述签名。
- Anthropic 公司持有解密密钥,用户的本地机器无法获取。
- API 返回的并非推理过程本身,而是一个推理摘要。
- 要获取完整的思考输出,需要签订企业级协议。
文章强调,这一点在承诺提供审计追踪之前必须了解。特别需要注意的是,通过快捷键(ctrl+o)获取的“扩展思考”输出,实际上是模型(Fable/Opus)思考过程的摘要,而非驱动模型在会话中执行操作的真实思考。这就像将JPEG图片保存为BMP格式,再编辑BMP文件并声称它是原始JPEG一样,转换过程会导致数据丢失。
因此,如果您需要记录会话中代理程序所使用的逻辑,请注意: * 无法通过本地文件获取。您系统上的推理日志对您是不可访问的。 * 虽然可以通过一些手段记录运行中Claude Code的输入、输出和操作,但这仍然不是驱动代理行为的真实推理过程。
文章最后指出,文档中的措辞非常隐晦,如果不仔细阅读,很容易忽略“扩展思考返回的是Claude完整思考过程的摘要”这一关键信息。
评论总结
根据评论内容,主要观点和论据总结如下:
1. 隐藏推理是行业普遍做法,主要出于商业竞争和安全考虑 - 多家公司(如OpenAI、Google)隐藏模型真实推理,以保护研发投入和防止竞争对手蒸馏模型(评论10、14、21)。 - 关键引用:"This is not just Anthropic... Exposing those thinking mechanics to competitors would completely defeat the purpose of their spending."(评论10);"It's an anti distillation effort. They are scared."(评论24)。
2. 对用户透明度和信任的担忧 - 用户无法查看付费的推理过程,可能增加安全风险(如提示注入、数据泄露),并影响模型优化(评论18、27)。 - 关键引用:"Imagine not being able to read the tokens you are paying for."(评论27);"It makes it possible for an attacker to prompt inject the reasoning chain... and to hide that from the summary and output."(评论18)。
3. 对“推理”本质的质疑 - 部分评论认为LLM的“思考”并非真正推理,而是基于统计的文本生成,隐藏的推理链可能不反映真实过程(评论3、11、15、19、20、26)。 - 关键引用:"Computers don't think they process, those are very different activities."(评论3);"Research shows that even the raw trace tokens do not actually reflect underlying model 'thoughts'."(评论19)。
4. 对隐藏推理的实用性和必要性的不同看法 - 有人认为摘要已足够,隐藏推理对用户体验影响不大(评论9);也有人认为这是“洗白”或“欺诈”行为(评论13、30)。 - 关键引用:"For me having a summary is honestly better from a context management perspective."(评论9);"Providing a summary could be seen as form of sane-washing, making the model look more purposeful and directed than it really is!"(评论13)。
5. 技术细节与潜在问题 - 推理可能并非基于真实token,而是残差流,导致用户无法直接观察(评论16);隐藏推理可能掩盖模型“死循环”或异常行为(评论18、22)。 - 关键引用:"Is the thinking even done in real tokens? I thought it was done using the pure residual stream."(评论16);"Opus 4.8 after 100k-200k tokens starts to leak it's own thinking. It's comedy really."(评论22)。