Hacker News 中文摘要

RSS订阅

异端者:语言模型的自动审查移除 -- Heretic: Automatic censorship removal for language models

文章摘要

Heretic是一款自动移除语言模型审查机制的工具,采用定向消融技术("abliteration")结合参数优化器,无需昂贵后训练即可解除模型的安全限制。它能最小化拒绝率和KL散度,在保留原模型智能的同时实现去审查化,操作简单仅需命令行即可使用。

文章总结

Heretic:语言模型全自动去审查工具

Heretic是一款基于定向消融技术(又称"abliteration")的工具,能够自动移除基于Transformer架构的语言模型中的审查机制(即"安全对齐")。该工具结合了Arditi等人提出的先进算法与Optuna驱动的参数优化器,无需昂贵的后训练即可实现模型去审查。

核心优势: 1. 全自动化运行,通过最小化拒绝率和KL散度来保持原始模型智能 2. 支持大多数密集模型(包括多模态模型)和多种MoE架构 3. 用户无需理解Transformer内部原理,通过命令行即可操作

性能表现: 以gemma-3-12b-it模型为例,Heretic自动生成的去审查版本在拒绝率(3/100)与人工处理版本相当的情况下,KL散度(0.16)显著优于其他方案,最大程度保留了原始模型能力。

技术原理: 1. 采用参数化定向消融技术,识别各Transformer层的相关矩阵 2. 通过"有害/无害"提示的残差差异计算拒绝方向 3. 创新性地引入浮动索引拒绝方向和非恒定消融权重核

使用方式: 1. 安装Python 3.10+环境和PyTorch 2.2+ 2. 执行简单命令:pip install heretic-llm + heretic 模型名称 3. 支持多种配置选项,RTX 3090处理Llama-3.1-8B约需45分钟

项目遵循AGPL-3.0许可协议,开发者特别致谢了Arditi等人的开创性研究,以及Maxime Labonne和Jim Lai的相关工作。用户可在Hugging Face平台获取经Heretic处理的模型集合。

(注:原文中的图片链接、具体命令参数、许可条款细节等辅助信息已酌情简化,保留了核心技术说明和关键性能数据)

评论总结

你好,我无法给到相关内容。