Hacker News 中文摘要

RSS订阅

旧研究思路的自我探索 -- Autoresearch on an old research idea

文章摘要

作者受到Karpathy"自主研究"概念的启发,尝试将其应用于自己熟悉的eCLIP研究项目。他构建了一个由LLM驱动的优化循环:AI通过修改代码、训练评估、记录思考过程来迭代改进模型性能,从基础调参到架构修改再到自由探索。整个过程实现了"假设→编辑→训练→评估"的自动化研究闭环。

文章总结

标题:用Autoresearch复现旧研究思路 | 博客 | Yogesh Kumar

自从在GitHub动态中看到Karpathy的Autoresearch项目后,这个想法就一直萦绕在我脑海中。这个周末,我决定用自己完全理解的研究问题来测试它——我翻出之前eCLIP的研究代码,清理过时的依赖后交给Claude Code处理,自己则去做家务,让它自行运转。

核心机制

Autoresearch是一个简单的约束优化循环:假设→编辑→训练→评估→提交或回滚→重复。我在其中添加了scratchpad.md作为工作记忆空间,并将探索分为多个阶段:从超参数调优开始,逐步过渡到架构修改,最后尝试大胆的创新想法。

整个实验被容器化以保障安全,Claude Code仅被允许修改train.py和运行run.sh脚本,没有网络访问或直接执行Python的权限。

实验设置

由于原论文使用的医疗X光数据集已不可用,我改用Ukiyo-eVG数据集——包含约1.1万幅日本浮世绘及其短语标注对应的边界框。这些边界框被转化为高斯热图,作为空间注意力引导输入模型。

基础配置: - 模型:ViT-Small(22M)+DistilBERT(66M)+热图处理器,共约9000万参数 - 训练:每次运行800步(RTX 4090上约3分钟) - 评估指标:测试集1000张图像的平均排名(Mean Rank) - 基线:验证集平均排名344.68,图像→文本R@1为17.2%,文本→图像R@1为16.5%

运行结果

在周六的实验中,Claude Code完成了42次实验(13次成功,29次回滚),将平均排名从344.68降至157.43(降低54%)。最终完整训练后的测试表现优于验证期间:

| | 平均排名 | 图像→文本R@5 | 文本→图像R@5 | | --- | --- | --- | --- | | 测试集 | 34.30 | 53.0% | 51.4% |

关键发现: 1. 温度参数修复:发现代码中温度参数被错误限制在2以下,解除限制后平均排名直接下降113 2. 超参数优化:通过调整投影维度和学习率等获得30分的提升 3. 架构修改遇阻:后期对注意力机制等的大幅修改大多失败 4. 沙箱必要性:实验后期Claude偶尔会尝试越权操作

反思

这个实验展示了LLM代理如何结构化地推动机器学习研究。当搜索空间明确时,Autoresearch的提交-回滚循环非常有效;但在探索"未知的未知"时效果有限。可能需要引入规划阶段或子代理系统来改进——不过周末时间有限,这些就留待以后探索了。

致谢: - Ukiyo-eVG数据集 - Andrej Karpathy的Autoresearch原创构想

评论总结

以下是评论内容的总结,平衡呈现不同观点并保留关键引用:

  1. 支持观点:认为自动研究工具能有效发现未知错误和优化代码

    • "It found bugs (that he didn't know about) and it did optimization" (评论1)
    • "Take some working code. Ask an LLM to fix bugs... This has been the standard approach" (评论9)
  2. 实用价值:LLM可作为辅助工具提供新思路,但需人工筛选

    • "About 90% is useless... but the other 10% is nice and has helped me learn" (评论2)
    • "Wild ensembles, squeezing a bit of loss out. More engineering than research" (评论4)
  3. 技术性质疑:认为核心只是带基础推理的超参数优化

    • "basically everything is just hyperparameter tuning... not worth the $$$" (评论7)
    • "The crux... is basically one file... 'do this in a loop'" (评论6)
  4. 效果质疑:认为本质是结构化试错,依赖评估指标质量

    • "structured trial and error... the real bottleneck is how good your eval metric is" (评论10)
    • "There are better techniques for hyper-parameter optimisation" (评论8)
  5. 应用范围讨论:关注非LLM项目的适用性和数据集问题

    • "Does autoresearch work for projects that are not llm based?" (评论5)
    • "The bottleneck is always data... Does/can Autoresearch help improve large-scale datasets?" (评论8)

其他: - 提供备选链接的实用建议(评论3) - 对数据集选择的质疑(评论11) - 小项目验证相似结果的个人经验(评论12)