文章摘要
谷歌推出Gemini 3 Deep Think人工智能模型更新,专为科学研究设计,旨在推动科学、研究和工程领域的进步。
文章总结
文章主要内容重述:
标题:Gemini 3 Deep Think:推动科学、研究与工程进步
发布时间:2026年2月12日
核心内容:
1. Gemini 3 Deep Think的重大升级
- 这是谷歌专为科学、研究和工程领域设计的AI推理模式,旨在解决现代复杂挑战。
- 通过与科学家和研究人员的紧密合作,新版Deep Think能够处理数据不完整或问题边界模糊的高难度研究任务,兼具理论深度与实际应用价值。
实际应用案例
- 数学领域:罗格斯大学的数学家Lisa Carbone利用Deep Think发现了一篇高难度数学论文中人类同行评审未察觉的逻辑漏洞。
- 材料科学:杜克大学Wang实验室通过Deep Think优化了复杂晶体生长的制备方法,成功实现了100微米以上薄膜的精准生长目标。
- 工程设计:谷歌工程师Anupam Pathak使用Deep Think加速物理组件的设计流程。
技术性能突破
- 在多项学术基准测试中表现卓越,包括:
- “Humanity’s Last Exam”测试中达到48.4%(无工具辅助);
- ARC-AGI-2测试中取得84.6%的成绩;
- 国际数学奥林匹克(2025)金牌级表现。
- 扩展至化学、物理等领域,在国际物理和化学奥赛理论部分均达到金牌水平。
- 在多项学术基准测试中表现卓越,包括:
开放访问计划
- Google AI Ultra订阅用户:即日起可通过Gemini应用使用新版Deep Think。
- 研究人员与企业:可通过Gemini API申请早期测试权限(申请链接)。
未来展望:
谷歌期待Deep Think在更多实际场景中推动科学发现与工程创新。
注:原文中的导航菜单、社交媒体分享按钮、视频嵌入代码等非核心内容已省略,仅保留与主题直接相关的技术细节和应用案例。
评论总结
以下是评论内容的总结:
1. 性能表现
- Gemini 3 Deep Think在基准测试中表现优异,特别是在ARC-AGI-2测试中达到84.6%,远超Claude 4.6的68.8%(评论1、3)。
- "According to benchmarks...healthily ahead of Claude 4.6"
- "Arc-AGI-2: 84.6% (vs 68.8% for Opus 4.6)"
- Google AI近几个月表现突出,部分用户认为Gemini优于其他模型(评论1、6)。
- "Google has definitely been pulling ahead in AI..."
- "Google is absolutely running away with it."
2. 技术细节与测试方法
- 基准测试方法公开,但未与GPT5.2 Pro直接比较(评论2、12)。
- "Here is the methodologies for all the benchmarks..."
- "The benchmarks don't appear to compare to GPT5.2 Pro..."
- 缺乏模型架构细节(如参数规模),讨论焦点转向模型能力(评论9)。
- "Do we get any model architecture details like parameter size etc.?"
3. 模型类型与计算复杂度
- 存在不同复杂度的模型类型(线性、二次、立方),可能对应不同问题解决能力(评论4)。
- "I think they map to - linear, quadratic and n^3 respectively."
- "what’s the higher level here, is there a 4th option?"
4. 可用性与应用场景
- 仅限Ultra订阅用户,且尚未支持代理工作流(评论5、8)。
- "it's only available in the Ultra subscription..."
- "Not trained for agentic workflows yet..."
5. 其他观察
- 在数学证明等任务上的表现存疑,可能不愿公开负面结果(评论10)。
- "nobody wants to publish a negative result..."
- 生成内容质量获肯定(如骑自行车的鹈鹕图像)(评论11)。
- "The pelican riding a bicycle is excellent."