Hacker News 中文摘要

文章摘要

这篇论文研究发现，大型语言模型(LLMs)能够编码问题的难度信息。通过分析模型内部表示，作者发现LLMs可以区分问题的难易程度，这为理解模型如何评估和解决复杂问题提供了新视角。

文章总结

论文标题：大语言模型能够编码问题的难度

主要内容概述：

这篇由William Lugoloobi和Chris Russell共同撰写的研究论文探讨了大语言模型（LLMs）在处理不同难度问题时的表现。研究发现，尽管LLMs能够解决复杂问题，但在看似简单的问题上却常常失败。研究团队通过训练线性探针（linear probes）对60个模型的不同层和标记位置进行评估，发现人类标注的难度信息能够被强烈线性解码（AMC: ρ≈0.88），并且与模型规模呈明显相关性；而模型自身衍生的难度信息则较弱且相关性差。

研究还发现，通过调整模型使其倾向于“更简单”的表征，可以减少幻觉（hallucination）并提高准确性。在GRPO训练过程中，人类难度探针的强度与测试准确性呈正相关，而模型衍生的难度探针则与性能呈负相关。这表明人类标注的难度信号在强化学习中被放大，而模型性能衍生的自动难度估计会随着模型改进而变得不准确。

关键发现：

人类标注的难度信息：能够被强烈解码，且与模型规模相关。
模型衍生的难度信息：解码能力较弱，相关性差。
调整模型表征：倾向于“更简单”的表征可以提高准确性并减少幻觉。
训练过程中的相关性：人类难度探针与测试准确性正相关，模型难度探针与性能负相关。

研究意义：

该研究揭示了人类标注在模型训练中的重要性，并为改进LLMs的性能提供了新的思路。研究团队还公开了探针代码和评估脚本，以便其他研究者复现实验结果。

论文信息：

领域：计算机科学 > 计算与语言（cs.CL）
提交日期：2025年10月20日
DOI：10.48550/arXiv.2510.18147

评论总结

总结：

相关研究提示

评论1提到类似研究，探讨模型是否编码自身回答正确性的确定性 "I haven't read this particular paper in-depth, but it reminds me of another one I saw that used a similar approach..." "https://arxiv.org/abs/2509.10625"

模型本质认知

评论2认为将"LLM"理解为"基于压缩训练数据的文本补全"更清晰 "It's all very clear when you mentally replace 'LLM' with 'text completion driven by compressed training data'" "Some problems are better represented by a locus of texts in the training data..."

任务难度评估问题

评论3指出Claude对任务难度评估不准确的现象 "it will routinely say something like '10 week task, very complex', and then one-shot it in 2 minutes" "there's something off about how well claude estimates the difficulty of things"

理论类比

评论4简短提出该现象可能与柯尔莫哥洛夫复杂度理论相关 "Sound a lot like Kolmogorov complexity"

（注：所有评论均无评分数据，故未体现认可度信息）

大语言模型编码了问题的难度 -- LLMs encode how difficult problems are