文章摘要
该研究复现了Ng的RYS方法,发现在不改变权重、无需训练的情况下,仅通过重复特定层的隐藏状态处理路径,就能显著提升模型性能:在Qwen2.5-32B中复制3个特定层使推理能力提升17%,在Devstral-24B中复制12-14层使逻辑推理准确率从0.22提升到0.76。研究工具已开源,使用两块AMD显卡一晚完成。
文章总结
GitHub项目:llm-circuit-finder - 通过层复制提升大模型推理能力
核心发现: 1. 通过复制特定神经网络层(无需训练或权重调整)可显著提升大语言模型性能: - 在Qwen2.5-32B模型中复制第7-9层,推理能力提升17% - 在Devstral-24B模型中复制12-14层,BBH逻辑推理得分从0.22提升至0.76(+245%)
技术原理: - 基于David Ng的RYS方法,发现Transformer模型存在"推理电路"(3-4层组成的不可分割认知单元) - 二次通过相同电路可使模型获得额外推理机会 - 不同模型电路位置不同(如Devstral在12-14层,Qwen2.5在7-9层)
关键工具: - sweep.py:自动扫描最优层配置 - layer_path.py:创建自定义层执行路径的GGUF模型 - 包含数学推理、情商测试、逻辑推理等测评工具集
实验验证: - Devstral-24B改进后: • GSM8K数学题严格准确率提升33% • MBPP代码生成提升8% • 平均指标提升8%且无性能下降 - 支持多种复制模式(双通道/三通道/交错等)
使用要求: - Linux系统+llama.cpp环境 - Python 3.10+及相关依赖库 - 足够的内存/显存资源
项目特点: - 所有发现仅用2块AMD消费级显卡(RX7900XT+6950XT)一晚完成 - 提供完整工具链和验证方法 - MIT开源协议
注:已过滤GitHub页面导航菜单、用户交互元素等非核心内容,保留技术细节和关键数据。
评论总结
评论总结:
技术类比与历史参考
- 有评论将当前方法与Solar 10.7B模型的"Depth Up-Scaling"技术类比(评论1)。
- 另有评论提到类似方法在Llama和图像模型中已有应用(评论8)。
"Reminds me of Solar 10.7B... the 'Depth Up-Scaling' technique"
"this has been done at least since the very first public releases of Llama by Meta... It also works for image models"性能提升的质疑
- 部分评论认为重复层可能仅在特定任务中提升性能,而在其他任务中可能变差(评论3、5)。
- 有观点指出中间层冗余性,认为删除某些层可能不影响性能(评论6、14)。
"I’m pretty sure you will lose performance on a 'fair' mix of tasks"
"the middle layers carry most of the reasoning weight... you can often drop the outer ones without much loss"训练机制的解释与推测
- 有评论认为重复层的效果可能是偶然的,因为原始训练未考虑循环(评论9)。
- 另一种推测认为该方法可能通过破坏有害机制(如"refusal circuit")间接提升性能(评论12)。
"it is exceedingly unlikely that a single stack... represents only a single, repeatable circuit"
"it is selectively breaking things deleterious to reasoning"实验与验证需求
- 多位用户呼吁提供具体基准测试数据(评论2、13),并建议自动化寻找有效层(评论15)。
- 有评论分享实验经验,指出不同层对模型行为的影响差异(评论15)。
"Would you be able to publish the individual benchmarks?"
"Removing earliest layers makes the model generate random garbage"潜在应用与未来方向
- 部分评论认为这是低成本提升性能的简单技巧(评论7),或可能启发新的训练方法(评论19)。
- 也有用户将此法与重复提示的技巧相类比(评论16)。
"you can have someone simply clone the layers... increase performance significantly"
"could we train small 6 layer models but evaluate... in a looped setup?"
总结
评论围绕层重复技术的有效性展开,既有支持其低成本优势的实践案例,也有对其普适性和理论依据的质疑。核心争议在于性能提升是否具有普遍性,以及是否需重新设计训练框架。实验验证和更透明的基准数据成为共同诉求。