文章摘要
研究发现,五大前沿大语言模型对真实世界事实核查存在显著分歧:在1000条用户提交的待核查声明中,67%的案例模型无法达成一致,34%存在实质性分歧(判断相差两个等级以上)。虽然专家组能就明确结论达成共识,但在"基本真实/误导性"等中间评级上分歧明显,整体一致性指标仅为0.639。这表明当前AI模型在复杂事实判断上仍存在局限性。
文章总结
前沿大语言模型在事实核查中的分歧研究
核心发现
分歧普遍性
在1000条真实用户提交的核查请求中,五大前沿模型(GPT-5.4、Claude Opus 4.7、Gemini 3 Pro及其搜索增强版、Sonar Pro)对67%的声明(672条)存在判断分歧(95%置信区间:64-70%)。其中:- 33%的声明(328条)达成完全一致
- 34%的声明(343条)存在实质性分歧(至少两个模型的判断相差2个等级以上)
分歧类型
- 极性分歧(如"真实"↔"虚假")占21%
- 中度分歧(如"真实"↔"误导性")占13%
- 细微分歧(如"真实"↔"基本真实")占33%
模型间一致性
Krippendorff's α系数(序数)为0.639,显示模型间存在显著但有限的一致性。模型配对分析显示:- 最高一致率:Gemini 3 Pro与搜索增强版(75%)
- 最低一致率:Claude Opus 4.7与Gemini 3 Pro(53%)
关键细节
- 领域差异:法律类声明分歧最大(77%),历史类最小(53%)
- 判断分布:
- Gemini系列倾向两极判断("真实"或"虚假"占比超90%)
- Claude Opus更常使用中间等级("基本真实"和"误导性"占比45%)
- 一致率参考:当其他四个模型形成明确多数意见时,GPT-5.4的跟随率达81%,Sonar Pro最低(69%)
方法论要点
- 数据来源:Lenz事实核查平台最新1000条用户提交,经去重和标准化处理
- 评估框架:四等级制(真实/基本真实/误导性/虚假),强制选择无弃权选项
- 模型配置:包含纯参数模型(3个)和检索增强模型(2个),统一使用确定性解码
研究局限
- 分歧率是错误率的下限估计(即使多数意见也可能错误)
- 等级间距假设存在简化(如"真实"与"误导性"的差距未必等于"基本真实"与"虚假"的差距)
- 检索增强模型的实时搜索结果不可控
(完整数据集及方法论详见原始研究:DOI 10.5281/zenodo.20344847)
评论总结
这篇关于多个大语言模型在事实核查任务中分歧的研究引发了多方面的讨论,以下是主要观点总结:
【研究支持方观点】 1. 作者指出67%的案例中至少有一个模型与主流判断不同,显示模型间存在显著分歧 - "67% of 1,000 recent real user claims had at least one model dissent" (kostaj) - "That's better than all agreeing on the wrong answer" (apples_oranges)
- 部分评论认为人类评审也会有类似分歧
- "5 humans would disagree even more than the LLMs" (bobosmrad)
- "US jury verdicts...flawed reasoning is endemic to our species" (6stringmerc)
【研究方法质疑】 1. 实验设计问题: - 强制四选一缺乏"无法验证"选项:"The only correct answer...is 'this claim is impossible for me to verify'" (simonw) - 分类标准模糊:"the difference between 'True' and 'Mostly true' is pretty fuzzy" (throw310822)
- 测试样本问题:
- 包含政治性/预测性陈述:"many are quite political...some are predictions" (cm2187)
- 测试未来事件:"All models were trained before the test dates" (thegrim33)
- 透明度问题:
- 未披露是否使用LLM撰写报告:"usage of LLMs for the production isn't mentioned" (embedding-shape)
- "AI-written report without disclosure...worthless assessment" (john_strinlai)
【模型表现争议】 1. 部分肯定模型表现: - "managed to make it not a cointoss...pretty impressive" (rastrojero2000) - "They get more human by the day" (christophilus)
- 根本性质疑:
- "LLMs cannot provide accurate answers without training data" (proofofcontempt)
- "no reasoning, just statistical technical correctness" (utopiah)
典型分歧案例: - "Ruskin Bond出生地"存在历史归属争议(wongarsu) - "外星生命存在"这类无法验证的命题(jawns) - 未来事件如"2026年无人机袭击"(simonw)
研究价值讨论: - "great exercise in identifying common mistakes"(fumeux_fume) - "benchmark will become moot due to Goodhart's law"(utopiah)