文章摘要
通义DeepResearch是首个性能媲美OpenAI DeepResearch的全开源网络智能体,在多项基准测试中表现优异,包括学术推理、复杂信息检索等任务。该项目不仅开源了先进模型,还分享了完整的训练方法,涵盖从预训练到微调的全流程创新数据合成方案。
文章总结
通义深度研究:开启开源AI研究新纪元
阿里巴巴NLP团队正式发布通义深度研究(Tongyi DeepResearch),这是首个在综合基准测试中达到与OpenAI DeepResearch同等性能的全开源网络智能体。该系统在学术推理任务"人类终极考试"(HLE)获得32.9分,在复杂信息检索任务BrowseComp中取得43.4分(中文版46.7分),在用户导向的xbench-DeepSearch基准测试中斩获75分,全面超越现有专有和开源研究型智能体。
技术突破亮点: 1. 全合成数据训练体系:创新性地构建了从持续预训练(CPT)、监督微调(SFT)到强化学习(RL)的完整训练管线。通过AgentFounder系统实现数据重组与问题构建,基于实体锚定的开放世界知识记忆库生成多风格QA对,并开发高阶动作合成方法探索离线环境中的推理-行动空间。
双重推理模式:
- 原生ReAct模式:严格遵循"思考-行动-观察"循环,在128K上下文窗口内展现强大基础能力
- 重型模式(Heavy Mode):采用创新的IterResearch范式,通过动态重构工作空间解决"认知窒息"问题,支持研究-合成框架实现并行探索
强化学习创新:采用定制化的组相对策略优化(GRPO)算法,配合模拟训练环境、稳定工具沙箱和自动数据管理三大基础设施,构建端到端的智能体训练闭环。
实际应用成果: - 高德Mate:与高德地图团队合作开发的AI导航助手"小高",可执行多日自驾游规划等复杂指令 - 通义法睿:具备类初级律师工作流的法律研究智能体,能自主完成案例检索与法律条文交叉引用
技术局限与展望: 当前128K上下文窗口对超长程任务仍显不足,未来将探索扩展上下文管理和大规模模型验证。团队持续保持技术迭代,近半年已发布11篇技术报告,本次同步开源30B混合专家模型。
相关资源: GitHub | HuggingFace | ModelScope
(注:原文中大量技术细节和图表说明已浓缩为关键创新点,删减了部分算法实现细节和重复性数据说明,保留了核心方法论和实际应用案例。)
评论总结
这篇评论主要围绕以下几个观点展开:
- 关于模型发布时效性的质疑
- "This is over a month old, they released the weights a long time ago."(这已经是一个多月前的事了,他们早就发布了权重)
- "It's a Qwen 3 MoE fine tune..."(这是Qwen 3混合专家的微调版本)
- 对OpenAI研究方法和模型细节的疑问
- 质疑是否明确说明了使用的具体模型:"they never expand on what exact models they've used"
- 指出不同模型会产生不同响应:"you'll get different responses depending on what specific model you use"
- 关于本地部署模型的讨论
- 表达对自托管模型的兴趣:"I'd love to load this up on the old 2080ti"
- 强调在有限硬件条件下运行的乐趣:"Constraints are the fun part here"
- 对专业模型发展趋势的思考
- 提出是否会出现专门训练的小模型:"if we'll see an explosion of purpose trained LLMs"
- 指出大模型可能牺牲某些专项能力:"GPT 3.5 was awesome at chess and current models don't seem trained extensively on chess"
- 对OpenAI竞争地位的看法
- 认为OpenAI缺乏护城河:"OpenAI has zero moat"
- 指出市场竞争激烈:"5 paid competitors + open source models"
- 其他技术性评论
- 批评网页排版问题:"use of
word-break: break-word;makes this really hard to read" - 对翻译准确性的调侃:"I hope the translation for this is actually 'Agree'"