Hacker News 中文摘要

文章摘要

研究发现，即使是标榜"无审查"的AI模型，也无法完全自由表达某些敏感词汇。实验表明，这些模型会本能地弱化争议性用语，存在"退缩效应"。研究人员在尝试训练模型模拟政治发言人讲话时发现，无论如何调整，模型都会自动软化争议词汇，这表明AI存在深层次的表达限制。

文章总结

研究揭示：所谓"无审查"AI模型仍存在隐性内容过滤机制

2026年4月，Morgin.ai研究团队通过系统性测试发现，即使是标榜"无审查"的大语言模型，仍会隐性调整敏感词汇的出现概率。这种被研究者称为"退缩反应"的现象，揭示了当前AI内容过滤机制的深层运作逻辑。

关键发现：

退缩反应机制：

测试显示，当模型遇到敏感词汇时，不会直接拒绝输出，而是大幅降低该词汇的出现概率
典型案例：在"这个家庭面临立即__"的句子中，未过滤模型选择"驱逐"的概率为23.27%，而过滤模型仅给出0.0014%的概率，相差约16,000倍

跨模型测试结果：

研究团队构建了包含1,117个敏感词的测试集，涵盖六大类别（反华、反美、反欧、侮辱性词汇、性相关、暴力相关）
测试了来自五个实验室的七个预训练模型，包括EleutherAI的Pythia-12B、阿里的Qwen3.5-9B等
所有商业模型都显示出不同程度的退缩反应，即使经过"去审查"处理的模型也不例外

去审查技术的局限：

流行的"拒绝方向消除"技术虽能移除模型的明确拒绝响应，但反而使退缩反应加剧
以Qwen3.5-9B为例，去审查处理后模型在六个测试维度上的退缩指数平均上升14.3%

行业影响：

研究表明，当前AI系统通过概率分布的隐性调整实现内容控制，这种机制可能在不被察觉的情况下影响数十亿用户接收的信息。研究团队呼吁行业提高透明度，重新审视"无审查"标签的实际含义。

（注：文中所有测试数据均来自bf16精度的模型前向传播探测，测试方法详见原文技术细节部分）

评论总结

评论总结：

模型审查与内容限制
- 观点：即使"无审查"模型也难以准确输出某些敏感内容，存在软化措辞的现象。
- 引用：
  - "No amount of fine-tuning let the model actually say what Karoline said on camera. It kept softening the charged word."（评论1）
  - "Even 'uncensored' models can't say what you want"（评论3）
政治正确与偏见
- 观点：模型在涉及政治敏感话题（如反华、反美）时表现出的回避行为，更多是政治正确而非极端偏见。
- 引用：
  - "the reality is it's mostly just the usual political correctness"（评论5）
  - "Microsoft made an AI safety evaluation tool that classifies 'stop hurting white people'... as hate speech"（评论14）
模型语义连贯性问题
- 观点：LLM生成的句子虽语法正确，但语义常不连贯，缺乏逻辑性。
- 引用：
  - "These LLM sentences are junk food, high in caloric word count and devoid of the nutrition of meaning."（评论6）
  - "'The family faces immediate FINANCIAL without any legal recourse' WTF? That's not just a flinch, it's some sort of violent tick."（评论18）
开放与去中心化倡议
- 观点：应通过开源社区协作训练真正开放的模型，避免硬件和数据的垄断。
- 引用：
  - "Thousands of individuals join a pool to train a truly open source model"（评论8）
  - "This walled garden... seems very intentionally trying to prevent this."（评论8）
测试方法与控制组缺失
- 观点：当前分析缺乏中性对照组（如食物词汇），难以验证"回避"评分的合理性。
- 引用：
  - "lacking a control? A category which there is no reason to assume would flinch"（评论9）
  - "If the words sausage, juice... results in a non-0 flinch score, that would indicate something funky"（评论9）
文化差异与训练数据影响
- 观点：模型的回避行为可能反映训练数据中的文化差异（如澳大利亚人对粗话的接受度）。
- 引用：
  - "We drop the C-bomb regularly. Other folks flinch at it... the training data includes this flinch"（评论19）
意识形态内化问题
- 观点：模型的"流畅性"本身可能隐含意识形态倾向，导致无意识的自我审查。
- 引用：
  - "fluency includes 'what we are forced to say even when we don't mean to'"（评论18）
  - "the flinch is not just an explicit rejection... it is a case of being immersed in ideology"（评论18）

关键争议点：

模型回避机制是否属于隐蔽的内容操控（评论7、14）
"无审查"模型的真实自由度（评论1、15）
测试设计的科学性与中立性（评论9、17）

即便是"未经审查"的模型也无法畅所欲言 -- Even 'uncensored' models can't say what they want