Hacker News 中文摘要

文章摘要

作者受到Karpathy"自主研究"概念的启发，尝试将其应用于自己熟悉的eCLIP研究项目。他构建了一个由LLM驱动的优化循环：AI通过修改代码、训练评估、记录思考过程来迭代改进模型性能，从基础调参到架构修改再到自由探索。整个过程实现了"假设→编辑→训练→评估"的自动化研究闭环。

文章总结

标题：用Autoresearch复现旧研究思路 | 博客 | Yogesh Kumar

自从在GitHub动态中看到Karpathy的Autoresearch项目后，这个想法就一直萦绕在我脑海中。这个周末，我决定用自己完全理解的研究问题来测试它——我翻出之前eCLIP的研究代码，清理过时的依赖后交给Claude Code处理，自己则去做家务，让它自行运转。

核心机制

Autoresearch是一个简单的约束优化循环：假设→编辑→训练→评估→提交或回滚→重复。我在其中添加了scratchpad.md作为工作记忆空间，并将探索分为多个阶段：从超参数调优开始，逐步过渡到架构修改，最后尝试大胆的创新想法。

整个实验被容器化以保障安全，Claude Code仅被允许修改train.py和运行run.sh脚本，没有网络访问或直接执行Python的权限。

实验设置

由于原论文使用的医疗X光数据集已不可用，我改用Ukiyo-eVG数据集——包含约1.1万幅日本浮世绘及其短语标注对应的边界框。这些边界框被转化为高斯热图，作为空间注意力引导输入模型。

基础配置： - 模型：ViT-Small（22M）+DistilBERT（66M）+热图处理器，共约9000万参数 - 训练：每次运行800步（RTX 4090上约3分钟） - 评估指标：测试集1000张图像的平均排名（Mean Rank） - 基线：验证集平均排名344.68，图像→文本R@1为17.2%，文本→图像R@1为16.5%

运行结果

在周六的实验中，Claude Code完成了42次实验（13次成功，29次回滚），将平均排名从344.68降至157.43（降低54%）。最终完整训练后的测试表现优于验证期间：

| | 平均排名 | 图像→文本R@5 | 文本→图像R@5 | | --- | --- | --- | --- | | 测试集 | 34.30 | 53.0% | 51.4% |

关键发现： 1. 温度参数修复：发现代码中温度参数被错误限制在2以下，解除限制后平均排名直接下降113 2. 超参数优化：通过调整投影维度和学习率等获得30分的提升 3. 架构修改遇阻：后期对注意力机制等的大幅修改大多失败 4. 沙箱必要性：实验后期Claude偶尔会尝试越权操作

反思

这个实验展示了LLM代理如何结构化地推动机器学习研究。当搜索空间明确时，Autoresearch的提交-回滚循环非常有效；但在探索"未知的未知"时效果有限。可能需要引入规划阶段或子代理系统来改进——不过周末时间有限，这些就留待以后探索了。

致谢： - Ukiyo-eVG数据集 - Andrej Karpathy的Autoresearch原创构想

评论总结

以下是评论内容的总结，平衡呈现不同观点并保留关键引用：

支持观点：认为自动研究工具能有效发现未知错误和优化代码
- "It found bugs (that he didn't know about) and it did optimization" (评论1)
- "Take some working code. Ask an LLM to fix bugs... This has been the standard approach" (评论9)
实用价值：LLM可作为辅助工具提供新思路，但需人工筛选
- "About 90% is useless... but the other 10% is nice and has helped me learn" (评论2)
- "Wild ensembles, squeezing a bit of loss out. More engineering than research" (评论4)
技术性质疑：认为核心只是带基础推理的超参数优化
- "basically everything is just hyperparameter tuning... not worth the $$$" (评论7)
- "The crux... is basically one file... 'do this in a loop'" (评论6)
效果质疑：认为本质是结构化试错，依赖评估指标质量
- "structured trial and error... the real bottleneck is how good your eval metric is" (评论10)
- "There are better techniques for hyper-parameter optimisation" (评论8)
应用范围讨论：关注非LLM项目的适用性和数据集问题
- "Does autoresearch work for projects that are not llm based?" (评论5)
- "The bottleneck is always data... Does/can Autoresearch help improve large-scale datasets?" (评论8)

其他： - 提供备选链接的实用建议(评论3) - 对数据集选择的质疑(评论11) - 小项目验证相似结果的个人经验(评论12)