文章摘要
Qodo Command在SWE-bench Verified基准测试中取得了71.2%的成绩,展示了其在真实软件开发任务中的强大能力。该测试基于12个广泛使用的开源Python仓库的真实GitHub问题,要求AI代理在复杂环境中进行代码推理、规划和编辑,体现了Qodo Command在代码审查、测试编写、错误修复和功能生成等实际应用中的高效表现。
文章总结
Qodo Command在SWE-bench Verified测试中获得71.2%的高分
Qodo Command,我们的CLI代理,在SWE-bench Verified测试中取得了71.2%的成绩(提交待审),这是评估AI代理在真实世界软件工程任务中表现的领先基准。这一成就表明,Qodo的代理是为实际生产开发而设计的。在代码审查、编写测试、修复错误和生成功能等用例中,我们的CLI代理超越了自动补全,提供了深思熟虑、上下文感知和高完整性的代码。
真实世界的一次性执行
大多数AI基准测试在孤立、简化的环境中评估代理。然而,SWE-bench Verified在复杂、混乱的真实世界软件工程场景中测试编码代理。每个测试案例都基于12个广泛使用的开源Python仓库中的真实GitHub问题。代理会收到GitHub问题和代码库,并必须像开发者一样进行推理、规划和编辑代码,多次迭代,而不会简化问题。
Qodo Command使用生产版本一次性运行,没有进行微调或特定于基准的调整,得分为71.2%。开发者只需通过简单的安装包npm install -g @qodo/command即可使用。
LLM模型灵活性与Claude合作
Qodo Command支持所有顶级LLM模型,但Claude 4成为我们在SWE-bench Verified测试中的首选模型。得益于与Anthropic的强有力合作,Qodo是一个“由Claude驱动”的解决方案,我们正在共同构建世界上最适应性强、以学习为导向的编码代理,利用当今最先进的语言模型之一。
71.2%成功背后的架构
在SWE-bench上取得高性能并不是为了优化基准测试,而是Qodo Command在真实世界软件工程挑战中表现出色的自然结果。以下是我们的架构决策如何直接贡献于其性能:
- 上下文总结:Qodo Command将多层代码提炼为精确、高信号的总结,确保语言模型在每一步只接收到最相关、结构化的上下文。
- 执行计划:Qodo的默认计划优先方法确保在深入分析用户目标后,才进行实施。我们首先将用户目标分解为清晰、可操作的子任务,为LLM创建路线图。
- 重试和回退机制:当工具调用失败时,Qodo代理不会停止,而是适应。系统提取错误反馈,调用LLM诊断失败,并智能调整工具参数或结构。
- 由LangGraph驱动:Qodo Command使用LangGraph,这是一个需要结构、模块化和状态管理的代理和工作流框架,赋予Qodo Command模块化和速度。
- 代理工具:Qodo Command结合了代理推理和强大的执行工具,使代理能够像专家开发者一样操作,与真实环境交互,扫描大型代码库,并以结构化步骤思考。
Qodo Command在复杂代码库中的卓越表现
Qodo Command已经改变了我们在Qodo开发软件的方式。其独特之处在于我们对自动化与完整性的基础关注。以下是您可以使用Qodo Command完成的任务:
- 代码完整性自动化:自发布以来,Qodo团队、客户和社区贡献者一直在积极构建使用Qodo Command的代理,使团队能够自动化高影响力任务,如代码审查自动化、测试生成和文档生成。
- 代码审查的UI模式:代码质量不仅仅在于生成,还在于一致、结构化的审查。这就是为什么Qodo Command包括一个专用的UI模式,内置了我们的高级代码审查代理Qodo Merge。
下一步您将构建什么?
Qodo Command不是为基准测试而构建的,而是为您的生产环境而构建的。在SWE-bench Verified测试中排名全球前五的版本现已可用,只需一个命令:npm install -g @qodo/command。使用它来自动化您的代码完整性工作流,加速代码审查,并生成测试、文档和功能代码,同时保持您的团队所依赖的质量标准。这是我们为自己构建的CLI代理,并每周公开改进。我们才刚刚开始,不要等待,立即开始使用Qodo Command。
评论总结
评论内容总结:
对Qodo性能的认可
- 评论1指出,Qodo在SWE bench上的表现虽然排名第五,但其“开箱即用”的能力使其成为当前最优秀的CLI代理之一。
引用:- "If the results can be reproduced 'out-of-the-box' with their coding agent like they claim, it puts it up there as one of the top 2-3 CLI agents available right now."
- “如果像他们声称的那样,他们的编码代理可以‘开箱即用’地复现结果,那么它将成为当前最优秀的2-3个CLI代理之一。”
- 评论6提到,Qodo直接使用产品进行测试,与其他需要专门框架的提交不同。
引用:- "Unlike most SWE bench submissions, Qodo Command one uses the product directly."
- “与大多数SWE bench提交不同,Qodo Command直接使用产品进行测试。”
- 评论1指出,Qodo在SWE bench上的表现虽然排名第五,但其“开箱即用”的能力使其成为当前最优秀的CLI代理之一。
对测试方法和结果的质疑
- 评论4呼吁国际机构进行测试,认为当前的测试结果缺乏可信度。
引用:- "We need some international body to start running these tests… I just can’t trust these numbers any longer."
- “我们需要一些国际机构来运行这些测试……我再也无法相信这些数字了。”
- 评论10建议关注Qodo在多语言基准测试中的表现,认为当前的SWE bench仅涵盖Python问题,不够全面。
引用:- "I would be more interested in Qodo's performance on the swe-bench-multilingual benchmark."
- “我更感兴趣的是Qodo在swe-bench-multilingual基准测试中的表现。”
- 评论4呼吁国际机构进行测试,认为当前的测试结果缺乏可信度。
对LLM包装公司长期生存能力的质疑
- 评论5质疑专注于编码的LLM包装公司如何长期生存,认为编码是基础模型的核心领域。
引用:- "I'm curious how do these LLM wrapper companies think they'll survive long term - especially coding related wrappers."
- “我很好奇这些LLM包装公司如何长期生存——尤其是与编码相关的包装公司。”
- 评论5质疑专注于编码的LLM包装公司如何长期生存,认为编码是基础模型的核心领域。
对Qodo与其他工具的比较和效率的关注
- 评论8建议Qodo比较其效率,并报告不同代理在相同模型下的任务成本。
引用:- "If Qodo is reading: please compare your efficiency too. Run some tasks on various agents using the same models, and report the cost."
- “如果Qodo在阅读:请也比较一下你们的效率。使用相同模型在不同代理上运行一些任务,并报告成本。”
- 评论9询问嵌入技术在映射错误报告到代码文件方面的有效性,与Qodo等工具使用的广泛搜索方法进行比较。
引用:- "Does anyone have a benchmark on the effectiveness of using embeddings for mapping bug reports to code files as opposed to extensive grepping as Qodo, Cursor and a number of tools I use do to localize faults?"
- “有没有人对使用嵌入技术将错误报告映射到代码文件的有效性进行基准测试,而不是像Qodo、Cursor和我使用的许多工具那样进行广泛的搜索来定位错误?”
- 评论8建议Qodo比较其效率,并报告不同代理在相同模型下的任务成本。
对Qodo与其他工具的替代和竞争
- 评论7提到用户从Qodo转向了BugBot,表明市场上存在竞争。
引用:- "Was using their bot for code review for last 2 years but just dropped it for BugBot."
- “过去两年我一直在使用他们的机器人进行代码审查,但最近转向了BugBot。”
- 评论2提到Warp的表现令人印象深刻,暗示Qodo需要与其他工具竞争。
引用:- "I've been using Warp for the past few weeks and it's been incredibly impressive over other agentic coding services/platforms."
- “过去几周我一直在使用Warp,它比其他代理编码服务/平台更令人印象深刻。”
- 评论7提到用户从Qodo转向了BugBot,表明市场上存在竞争。
总结:评论中对Qodo的性能和“开箱即用”能力表示认可,但也对其测试方法、长期生存能力、效率以及与其他工具的比较提出了质疑和建议。