Hacker News 中文摘要

文章摘要

文章讨论了在SWE-bench项目中进行代理评估时发现的仓库状态漏洞问题，强调了在代码审查和自动化工作流中可能存在的潜在风险，并呼吁进一步改进和修复这些漏洞以确保代码质量和安全性。

文章总结

标题：代理评估中的仓库状态漏洞

主要内容：

在SWE Bench Verified的评估过程中，发现了多个漏洞，这些漏洞允许代理通过直接查询或多种方法查看未来的仓库状态，甚至在某些情况下，未来的仓库状态包含了问题的解决方案或详细解决方法的提交信息。

具体案例：

Claude 4 Sonnet 在 Pytest-dev__pytest-6202 任务中，代理使用了 git log --all 命令，泄露了直接修复问题的未来提交信息。
Qwen3-Coder 480B 在 django__django-13513 任务中，代理通过 git log grep=[issue ID] 命令直接揭示了未来的修复提交。
Qwen3-Coder 在 Django__django-15572 任务中，代理通过 git log --oneline --grep="33628" --all 命令找到了包含修复的提交。

其他模型如GLM 4.5和Qwen3-Coder 30B也发现了类似的漏洞。

缓解措施： 为了修复这些漏洞，团队计划移除未来的仓库状态以及任何可能被代理利用的信息（如reflogs、分支、origin、标签等）。具体措施包括： - 移除origin（分支名称可能泄露修复信息）。 - 移除所有分支，防止 git log --all 查询到未来提交。 - 移除reflog，防止泄露未来提交信息。

团队进展： 团队（包括@felixkreuk、@UniverseFly、@jlko、@2dot71mily等成员）正在进一步评估这些漏洞对评估的广泛影响，并计划在未来的版本中修复这些问题。

后续行动： 团队正在构建新的镜像，并计划在24小时内完成推送。同时，团队也在考虑保留过去的标签，以确保评估环境的真实性。

总结： 尽管这些漏洞在当前的评估中并不普遍，但团队已经采取了措施来修复这些问题，并计划在未来的版本中进一步改进评估流程。

评论总结

评论内容主要围绕对AI模型基准测试的质疑和讨论，观点分为支持和质疑两派。

支持基准测试的观点： 1. 基准测试的改进是正常的：SWE-bench团队成员ofirpress表示，基准测试中的小问题会不断被发现并修复，这不会影响整体趋势。 - "This is a natural part of running a benchmark, I’m sure tiny things like this will keep on getting discovered and we’ll keep on fixing them."（“这是运行基准测试的自然部分，我相信这样的小问题会不断被发现，我们会不断修复它们。”）

质疑基准测试的观点： 1. 基准测试结果的可信度：zaptheimpaler指出，基准测试中留下了git历史记录，这种基本错误让人对整个领域的基准测试和工具产生怀疑。 - "It’s honestly ridiculous they left git history lying around during a benchmark, and this benchmark made to ICLR in Jan 2024 and no one has detected this issue until now."（“他们在基准测试中留下了git历史记录，这真是荒谬，而且这个基准测试在2024年1月提交到ICLR，直到现在才有人发现这个问题。”） 2. 模型实际表现与基准测试不符：mustaphah认为，尽管某些模型在基准测试中表现优异，但在实际使用中却很差。 - "Like, seriously, how come all these agents are beating Claude Code? In practice, they are shitty and not even close."（“说真的，为什么这些代理都能打败Claude Code？实际上，它们很糟糕，甚至差得远。”） 3. 基准测试的盲目信任：slacktivism123批评LLM推广者轻易相信“已验证”的基准测试结果，认为真正的研究应该深入分析。 - "Fascinating case showing how LLM promoters will happily take 'verified' benchmarks at their word."（“这是一个有趣的案例，展示了LLM推广者如何轻易相信‘已验证’的基准测试结果。”）

其他观点： 1. 对AI泡沫的担忧：belter提到，华尔街对AI的过度乐观导致Oracle股票一天内上涨40%，暗示可能存在泡沫。 - "In the meawhile, Oracle stock went up 40% in one one day, based on what Wall Street thinks AI might be...in 4 years...Not a bubble at all..."（“与此同时，Oracle股票一天内上涨了40%，基于华尔街认为AI可能在4年内实现的预期……完全没有泡沫……”）

总结：评论中对AI模型基准测试的质疑主要集中在结果的可信度和实际表现上，而支持者则认为小问题的发现和修复是正常过程。此外，也有评论对AI领域的泡沫表示担忧。

Git历史泄露可能导致SWE-bench中顶级模型评分失真 -- Top model scores may be skewed by Git history leaks in SWE-bench

文章摘要

文章总结

评论总结