Hacker News 中文摘要

RSS订阅

2%的ICML论文因作者在评审中使用大语言模型而被直接拒稿 -- 2% of ICML papers desk rejected because the authors used LLM in their reviews

文章摘要

文章讨论了AI工具在学术评审中的不当使用问题,指出这可能会损害同行评审的诚信。作者呼吁学术会议需要制定相应规则和政策来应对这一新常态,并对违反规则、破坏信任的行为采取纪律处分。

文章总结

关于违反大语言模型评审政策的声明

本文由ICML 2026程序主席Alekh Agarwal、Miroslav Dudik、Sharon Li、Martin Jaggi,科学诚信主席Nihar B. Shah,以及传播主席Katherine Gorman和Gautam Kamath联合发布。

随着AI日益成为研究人员工作流程中的重要工具,其不当使用可能损害同行评审的公正性。为此,ICML制定了两种评审政策: - 保守政策(A):禁止使用大语言模型(LLM) - 宽松政策(B):允许使用LLM辅助理解论文和润色评审意见

基于506位选择保守政策的评审人违反规定使用LLM的情况,会议方采取了以下措施: 1. 对相关投稿作拒稿处理,共497篇(约占投稿总量的2%) 2. 删除795篇(约占评审总量的1%)违规生成的评审意见 3. 对51位在多数评审中违规使用LLM的评审人(约占违规者的10%)取消评审资格

检测技术采用PDF水印方案:每篇论文嵌入两个随机选择的特殊短语(从17万条短语库中选取,组合概率低于百亿分之一),这些指令仅对LLM可见。实验显示,前沿LLM模型遵循隐藏指令的成功率超过80%。

会议方强调: - 所有违规案例均经过人工复核,严格控制误判率 - 该措施仅针对明确承诺不使用LLM的评审人 - 技术手段存在局限性,可能仅能发现最明显的违规行为

这一行动旨在维护学术社区的互信基础,随着领域快速发展,保持评审系统的公信力至关重要。

(注:原文中的导航菜单、相关文章推荐、页脚信息等非核心内容已作删减处理)

评论总结

这篇评论围绕ICML会议使用LLM水印技术检测违规使用AI审稿的现象展开讨论,主要观点如下:

【技术有效性】 1. 支持方认为水印检测方法简单有效: - "Worth reading for the discussion of the LLM watermark technique alone"(michaelbuckbee) - "通过PDF隐藏指令让LLM插入特定短语,仅检测直接复制输出的行为"(bonoboTP引用原文)

  1. 反方指出技术局限性:
  • "无法检测仅用LLM辅助修改的情况"(hodgehog11)
  • "30-40%的违规者可能未被发现,因为审稿人也用了LLM"(coldtea)

【道德争议】 1. 批评违规者虚伪: - "要求论文由人类评审,自己却用AI审稿"(hodgehog11) - "10%的作者在过半评审中违规使用"(mijoharas)

  1. 质疑学术体系结构性问题:
  • "这是无偿审稿制度下的必然结果"(quinndupont)
  • "声明不用LLM可能只是为了社会声望"(causalityltd)

【安全隐患】 1. 提示注入的双刃剑效应: - "同一技术既可执法也可攻击"(mika-el) - "作者也可能利用此技术操纵审稿意见"(grey-area)

【社会影响】 1. 担忧LLM依赖症: - "许多声称不用LLM的人实际在用"(aledevv) - "像药物依赖般难以摆脱"(causalityltd)

  1. 经济因素考量:
  • "为节省成本转向小模型"(gethwhunter34)

注:所有评论均未显示具体评分数据。讨论呈现明显对立观点,技术有效性的实证与道德争议的批判形成主要张力。