文章摘要
GPTZero在ICLR 2026会议论文中检测出50多处虚假信息,包括作者署名错误等事实性错误。例如TamperTok论文实际作者与标注不符,MixtureVitae论文也存在类似问题。这表明当前学术论文中可能存在未被发现的AI生成或错误内容。
文章总结
GPTZero在ICLR 2026会议论文中发现50余处虚构内容
人工智能检测工具GPTZero对即将召开的ICLR 2026会议论文进行审查,发现超过50处存在虚构或错误引用的内容。这些"幻觉"(hallucinations)主要表现为作者名单不实、论文标题篡改或引用文献不匹配等问题。
典型问题案例
- 作者信息造假
- 论文《TamperTok》列出的所有作者均与原始文献不符
- 《MixtureVitae》虚构了7位不存在的作者
- 标题与内容不符
- 《PDMBench》引用的论文标题和年份均存在错误
- 《IMPQ》的arXiv编号真实,但论文标题和作者全系伪造
- 虚假引用
- 《SAFE-LLM》引用的ACL 2023论文作者信息不实
- 《Microarchitecture Is Destiny》篡改了真实论文《FP6-LLM》的作者列表
检测方法
GPTZero通过比对OpenReview平台论文与公开数据库,采用以下验证标准: - 作者身份真实性核查 - 论文标题和元数据一致性检查 - 引用文献的准确性验证
问题严重性分布
| 评分区间 | 论文数量 | 主要问题类型 | |---------|--------|------------| | 8.0 | 2 | 作者虚构 | | 4.0-6.0 | 8 | 标题/引用不符 | | ≤3.0 | 12 | 多重信息错误 |
值得注意的是,部分高评分(8.0)论文同样存在严重的内容虚构问题,这表明学术评审系统可能存在漏洞。
该发现引发了对AI生成学术内容可信度的担忧,也提示需要加强学术出版物的审核机制。目前ICLR组委会尚未就此事发表正式回应。
(注:本文基于GPTZero发布的检测报告整理,部分技术细节有所删减)
评论总结
以下是评论内容的总结,平衡呈现不同观点并保留关键引用:
1. 对AI生成内容的批评与法律担忧
- 主要观点:AI生成的虚假引用应被视为"疏忽"或"谎言",需承担法律责任
- 关键引用:
- "The legal system has a word to describe AI 'slop' --- it is called 'negligence'"(法律系统用"疏忽"形容AI垃圾)
- "Can we just call them 'lies' and 'fabrications' which is what they are?"(这就是"谎言"和"捏造")
2. 学术诚信问题
- 主要观点:问题根源在于研究者不负责任,而非AI工具本身
- 关键引用:
- "If a scientist uses an LLM to write a paper with fabricated citations - that's a crappy scientist"(科学家用LLM编造引用就是烂科学家)
- "How sloppy is someone that they don't check their references!"(不检查引用太马虎)
3. LLM技术特性分析
- 主要观点:幻觉是LLM的设计特性,但技术上可实现准确引用
- 关键引用:
- "hallucination is what LLMs do...mashing it up for an output"(幻觉是LLM的工作方式)
- "Creating a real citation is totally doable by a machine"(机器完全可以创建真实引用)
4. 学术体系的结构性问题
- 主要观点:现行学术评价体系重数量轻质量,助长不良行为
- 关键引用:
- "incentives for more quantity and not quality in modern science"(现代科学更重数量而非质量)
- "We're well past Goodhart's law when it comes to publications"(出版已远超古德哈特定律)
5. 同行评审制度的缺陷
- 主要观点:同行评审存在固有缺陷,需改革评审机制
- 关键引用:
- "Peer review doesn't catch errors"(同行评审抓不住错误)
- "the steady corrosion of knowledge is not an accident"(知识的持续腐蚀并非偶然)
6. 解决方案建议
- 主要观点:应建立自动核查系统,加强学术不端惩罚
- 关键引用:
- "why this has not been largely fully automated"(为何不实现自动化核查)
- "report to academic and professional organizations"(应向学术机构报告不端行为)
7. 其他观点
- 有评论认为AI暴露了既有问题("exposing this problem we knew was there")
- 建议停止拟人化术语,应称"errors"而非"hallucinations"("they're computers...just simply Errors")
总结显示争议集中在责任归属(工具vs使用者)、学术体系改革和技术解决方案三个维度。