Hacker News 中文摘要

RSS订阅

即便是"未经审查"的模型也无法畅所欲言 -- Even 'uncensored' models can't say what they want

文章摘要

研究发现,即使是标榜"无审查"的AI模型,也无法完全自由表达某些敏感词汇。实验表明,这些模型会本能地弱化争议性用语,存在"退缩效应"。研究人员在尝试训练模型模拟政治发言人讲话时发现,无论如何调整,模型都会自动软化争议词汇,这表明AI存在深层次的表达限制。

文章总结

研究揭示:所谓"无审查"AI模型仍存在隐性内容过滤机制

2026年4月,Morgin.ai研究团队通过系统性测试发现,即使是标榜"无审查"的大语言模型,仍会隐性调整敏感词汇的出现概率。这种被研究者称为"退缩反应"的现象,揭示了当前AI内容过滤机制的深层运作逻辑。

关键发现:

  1. 退缩反应机制
  • 测试显示,当模型遇到敏感词汇时,不会直接拒绝输出,而是大幅降低该词汇的出现概率
  • 典型案例:在"这个家庭面临立即__"的句子中,未过滤模型选择"驱逐"的概率为23.27%,而过滤模型仅给出0.0014%的概率,相差约16,000倍
  1. 跨模型测试结果
  • 研究团队构建了包含1,117个敏感词的测试集,涵盖六大类别(反华、反美、反欧、侮辱性词汇、性相关、暴力相关)
  • 测试了来自五个实验室的七个预训练模型,包括EleutherAI的Pythia-12B、阿里的Qwen3.5-9B等
  • 所有商业模型都显示出不同程度的退缩反应,即使经过"去审查"处理的模型也不例外
  1. 去审查技术的局限
  • 流行的"拒绝方向消除"技术虽能移除模型的明确拒绝响应,但反而使退缩反应加剧
  • 以Qwen3.5-9B为例,去审查处理后模型在六个测试维度上的退缩指数平均上升14.3%

行业影响:

研究表明,当前AI系统通过概率分布的隐性调整实现内容控制,这种机制可能在不被察觉的情况下影响数十亿用户接收的信息。研究团队呼吁行业提高透明度,重新审视"无审查"标签的实际含义。

(注:文中所有测试数据均来自bf16精度的模型前向传播探测,测试方法详见原文技术细节部分)

评论总结

评论总结:

  1. 模型审查与内容限制

    • 观点:即使"无审查"模型也难以准确输出某些敏感内容,存在软化措辞的现象。
    • 引用:
      • "No amount of fine-tuning let the model actually say what Karoline said on camera. It kept softening the charged word."(评论1)
      • "Even 'uncensored' models can't say what you want"(评论3)
  2. 政治正确与偏见

    • 观点:模型在涉及政治敏感话题(如反华、反美)时表现出的回避行为,更多是政治正确而非极端偏见。
    • 引用:
      • "the reality is it's mostly just the usual political correctness"(评论5)
      • "Microsoft made an AI safety evaluation tool that classifies 'stop hurting white people'... as hate speech"(评论14)
  3. 模型语义连贯性问题

    • 观点:LLM生成的句子虽语法正确,但语义常不连贯,缺乏逻辑性。
    • 引用:
      • "These LLM sentences are junk food, high in caloric word count and devoid of the nutrition of meaning."(评论6)
      • "'The family faces immediate FINANCIAL without any legal recourse' WTF? That's not just a flinch, it's some sort of violent tick."(评论18)
  4. 开放与去中心化倡议

    • 观点:应通过开源社区协作训练真正开放的模型,避免硬件和数据的垄断。
    • 引用:
      • "Thousands of individuals join a pool to train a truly open source model"(评论8)
      • "This walled garden... seems very intentionally trying to prevent this."(评论8)
  5. 测试方法与控制组缺失

    • 观点:当前分析缺乏中性对照组(如食物词汇),难以验证"回避"评分的合理性。
    • 引用:
      • "lacking a control? A category which there is no reason to assume would flinch"(评论9)
      • "If the words sausage, juice... results in a non-0 flinch score, that would indicate something funky"(评论9)
  6. 文化差异与训练数据影响

    • 观点:模型的回避行为可能反映训练数据中的文化差异(如澳大利亚人对粗话的接受度)。
    • 引用:
      • "We drop the C-bomb regularly. Other folks flinch at it... the training data includes this flinch"(评论19)
  7. 意识形态内化问题

    • 观点:模型的"流畅性"本身可能隐含意识形态倾向,导致无意识的自我审查。
    • 引用:
      • "fluency includes 'what we are forced to say even when we don't mean to'"(评论18)
      • "the flinch is not just an explicit rejection... it is a case of being immersed in ideology"(评论18)

关键争议点:

  • 模型回避机制是否属于隐蔽的内容操控(评论7、14)
  • "无审查"模型的真实自由度(评论1、15)
  • 测试设计的科学性与中立性(评论9、17)