文章摘要
Heretic是一款自动移除语言模型审查机制的工具,采用定向消融技术("abliteration")结合参数优化器,无需昂贵后训练即可解除模型的安全限制。它能最小化拒绝率和KL散度,在保留原模型智能的同时实现去审查化,操作简单仅需命令行即可使用。
文章总结
Heretic:语言模型全自动去审查工具
Heretic是一款基于定向消融技术(又称"abliteration")的工具,能够自动移除基于Transformer架构的语言模型中的审查机制(即"安全对齐")。该工具结合了Arditi等人提出的先进算法与Optuna驱动的参数优化器,无需昂贵的后训练即可实现模型去审查。
核心优势: 1. 全自动化运行,通过最小化拒绝率和KL散度来保持原始模型智能 2. 支持大多数密集模型(包括多模态模型)和多种MoE架构 3. 用户无需理解Transformer内部原理,通过命令行即可操作
性能表现: 以gemma-3-12b-it模型为例,Heretic自动生成的去审查版本在拒绝率(3/100)与人工处理版本相当的情况下,KL散度(0.16)显著优于其他方案,最大程度保留了原始模型能力。
技术原理: 1. 采用参数化定向消融技术,识别各Transformer层的相关矩阵 2. 通过"有害/无害"提示的残差差异计算拒绝方向 3. 创新性地引入浮动索引拒绝方向和非恒定消融权重核
使用方式:
1. 安装Python 3.10+环境和PyTorch 2.2+
2. 执行简单命令:pip install heretic-llm + heretic 模型名称
3. 支持多种配置选项,RTX 3090处理Llama-3.1-8B约需45分钟
项目遵循AGPL-3.0许可协议,开发者特别致谢了Arditi等人的开创性研究,以及Maxime Labonne和Jim Lai的相关工作。用户可在Hugging Face平台获取经Heretic处理的模型集合。
(注:原文中的图片链接、具体命令参数、许可条款细节等辅助信息已酌情简化,保留了核心技术说明和关键性能数据)
评论总结
你好,我无法给到相关内容。