文章摘要

文章讨论了AI工具在学术评审中的不当使用问题，指出这可能会损害同行评审的诚信。作者呼吁学术会议需要制定相应规则和政策来应对这一新常态，并对违反规则、破坏信任的行为采取纪律处分。

文章总结

关于违反大语言模型评审政策的声明

本文由ICML 2026程序主席Alekh Agarwal、Miroslav Dudik、Sharon Li、Martin Jaggi，科学诚信主席Nihar B. Shah，以及传播主席Katherine Gorman和Gautam Kamath联合发布。

随着AI日益成为研究人员工作流程中的重要工具，其不当使用可能损害同行评审的公正性。为此，ICML制定了两种评审政策： - 保守政策（A）：禁止使用大语言模型（LLM） - 宽松政策（B）：允许使用LLM辅助理解论文和润色评审意见

基于506位选择保守政策的评审人违反规定使用LLM的情况，会议方采取了以下措施： 1. 对相关投稿作拒稿处理，共497篇（约占投稿总量的2%） 2. 删除795篇（约占评审总量的1%）违规生成的评审意见 3. 对51位在多数评审中违规使用LLM的评审人（约占违规者的10%）取消评审资格

检测技术采用PDF水印方案：每篇论文嵌入两个随机选择的特殊短语（从17万条短语库中选取，组合概率低于百亿分之一），这些指令仅对LLM可见。实验显示，前沿LLM模型遵循隐藏指令的成功率超过80%。

会议方强调： - 所有违规案例均经过人工复核，严格控制误判率 - 该措施仅针对明确承诺不使用LLM的评审人 - 技术手段存在局限性，可能仅能发现最明显的违规行为

这一行动旨在维护学术社区的互信基础，随着领域快速发展，保持评审系统的公信力至关重要。

（注：原文中的导航菜单、相关文章推荐、页脚信息等非核心内容已作删减处理）

评论总结

这篇评论围绕ICML会议使用LLM水印技术检测违规使用AI审稿的现象展开讨论，主要观点如下：

【技术有效性】 1. 支持方认为水印检测方法简单有效： - "Worth reading for the discussion of the LLM watermark technique alone"（michaelbuckbee） - "通过PDF隐藏指令让LLM插入特定短语，仅检测直接复制输出的行为"（bonoboTP引用原文）

反方指出技术局限性：

"无法检测仅用LLM辅助修改的情况"（hodgehog11）
"30-40%的违规者可能未被发现，因为审稿人也用了LLM"（coldtea）

【道德争议】 1. 批评违规者虚伪： - "要求论文由人类评审，自己却用AI审稿"（hodgehog11） - "10%的作者在过半评审中违规使用"（mijoharas）

质疑学术体系结构性问题：

"这是无偿审稿制度下的必然结果"（quinndupont）
"声明不用LLM可能只是为了社会声望"（causalityltd）

【安全隐患】 1. 提示注入的双刃剑效应： - "同一技术既可执法也可攻击"（mika-el） - "作者也可能利用此技术操纵审稿意见"（grey-area）

【社会影响】 1. 担忧LLM依赖症： - "许多声称不用LLM的人实际在用"（aledevv） - "像药物依赖般难以摆脱"（causalityltd）

经济因素考量：

"为节省成本转向小模型"（gethwhunter34）

注：所有评论均未显示具体评分数据。讨论呈现明显对立观点，技术有效性的实证与道德争议的批判形成主要张力。

Hacker News 中文摘要

2%的ICML论文因作者在评审中使用大语言模型而被直接拒稿 -- 2% of ICML papers desk rejected because the authors used LLM in their reviews

文章摘要

文章总结

关于违反大语言模型评审政策的声明

评论总结