文章摘要
该研究比较了传统超参数优化算法与基于LLM的方法在固定计算预算下的表现,发现CMA-ES等传统方法优于纯LLM方法。通过让LLM直接编辑源代码可缩小差距但未能超越。结合两者优势的混合方法Centaur表现最佳,即使使用0.8B参数的LLM也能超越所有传统和纯LLM方法。
文章总结
《大语言模型能否超越经典超参数优化算法?一项关于autoresearch的研究》
核心内容: 1. 研究背景: - 通过autoresearch代码库,让LLM代理直接编辑训练代码来优化超参数 - 在固定计算预算下,比较经典HPO算法与基于LLM的方法在小语言模型超参数调优中的表现
- 主要发现:
- 经典方法(如CMA-ES和TPE)始终优于基于LLM的代理,特别是在避免内存溢出方面表现更优
- 允许LLM直接编辑源代码可缩小与经典方法的差距,但即使使用Claude Opus 4.6等前沿模型仍无法超越
- LLM在跨试验跟踪优化状态方面存在困难
- 创新方案:
- 提出Centaur混合方法,将CMA-ES的可解释内部状态(包括均值向量、步长和协方差矩阵)与LLM结合
- Centaur在实验中取得最佳效果,仅需0.8B参数的LLM即可超越所有经典方法和纯LLM方法
- 其他发现:
- 无约束代码编辑需要更大模型才能与经典方法竞争
- 分析了搜索多样性、模型规模扩展(0.8B到前沿模型)以及Centaur中LLM提议试验的比例
- 结论:
- LLM最适合作为经典优化器的补充而非替代品
- 代码和交互演示已开源
研究信息: - 领域:机器学习(cs.LG) - 发布时间:2026年4月21日 - 版本历史:共5个修订版本 - 作者:Fabio Ferreira - DOI:10.48550/arXiv.2603.24647
(注:删减了与核心研究结论无关的版本更新记录和部分技术细节)
评论总结
以下是评论内容的总结:
- 量子计算研究进展
- 观点:量子电路优化研究取得显著突破
- 论据:ECDSa.fail实验已超越Google上月成果40%
- 引用:"it quickly surpassed a result announced by Google researchers" / "现在比Google的结果提高了40%"
- 半人马架构评价
- 观点:该设计简单有趣且易于实现
- 论据:可通过编码代理和pycma接口轻松实现
- 引用:"their centaur idea is interesting and quite straightforward" / "使用LLM编码代理和pycma接口应该相当容易实现"
- 研究方法融合
- 观点:两种方法结合是正确方向
- 观点分歧:关键在于如何组合而非单一方法
- 引用:"the combination of two is the right way" / "AI-PROPELLER使用AlphaEvolve优化编译器代码布局"
- LLM性能表现
- 观点:LLM在某些领域超越传统优化器
- 论据:在HPC代码调参等特定场景表现优异
- 引用:"LLMs can even outperform classical optimizers" / "开源模型在某些应用表现良好但在其他领域惨败"
- 成本效益质疑
- 观点:LLM附加价值有限且成本过高
- 论据:TPE优化器表现相当但无需LLM推理
- 引用:"the LLM is adding very marginal value" / "除非证明更昂贵的方法确实更好,否则倾向于选择更便宜的方法"
注:所有评论均未显示评分(None),主要围绕量子计算、AI优化方法和LLM应用价值展开讨论,呈现支持与质疑并存的平衡观点。