Hacker News 中文摘要

RSS订阅

双子座3.1专业版 -- Gemini 3.1 Pro

文章摘要

Gemini 3.1 Pro是谷歌最先进的多模态推理模型,能处理文本、音频、图像、视频和代码等复杂任务。它基于Gemini 3 Pro架构,支持高达100万token的输入和6.4万token的输出。模型卡会定期更新,包含性能评估和安全信息。

文章总结

模型卡片:Gemini 3.1 Pro

发布日期

2026年2月

模型概述

Gemini 3.1 Pro 是 Gemini 3 系列模型的最新版本,是一款高度智能、原生多模态的推理模型。作为谷歌当前最先进的模型,它能够处理复杂的多模态任务,包括文本、音频、图像、视频和代码库的分析与生成。

关键特性

  • 输入:支持文本、图像、音频和视频,上下文窗口高达 100 万 token。
  • 输出:生成文本,最大输出长度为 64K token。
  • 架构:基于 Gemini 3 Pro,详细架构信息可参考 Gemini 3 Pro 模型卡片

训练数据

训练数据集及数据处理方式与 Gemini 3 Pro 相同,详细信息可参考原模型卡片。

性能评估

Gemini 3.1 Pro 在多项基准测试中显著优于 Gemini 2.5 Pro,尤其在推理、多模态能力、工具使用和多语言任务方面表现突出。部分测试结果如下(截至2026年2月):

| 测试项目 | Gemini 3.1 Pro | Gemini 3 Pro | GPT-5.2 |
|------------------------------|----------------|--------------|---------|
| 学术推理(Humanity's Last Exam) | 44.4% | 37.5% | 34.5% |
| 科学知识(GPQA Diamond) | 94.3% | 91.9% | 92.4% |
| 长上下文性能(MRCR v2) | 84.9% | 77.0% | 83.8% |

适用场景

Gemini 3.1 Pro 特别适用于以下领域:
- 代理任务(如自动化工具使用)
- 高级代码生成与分析
- 多模态理解与长上下文推理
- 算法开发

已知限制

具体限制与 Gemini 3 Pro 相同,详见原模型卡片。

安全与伦理

  • 安全评估:Gemini 3.1 Pro 在自动化安全测试中表现优于 Gemini 3.0 Pro,尤其在多语言安全和文本内容安全方面有小幅提升。
  • 儿童安全:满足谷歌的儿童安全标准,性能与 Gemini 3.0 Pro 持平。
  • 前沿风险:根据谷歌的《前沿安全框架》(FSF),Gemini 3.1 Pro 在化学/生物、网络攻击、有害操纵等领域的风险等级未达到预警阈值。

可持续性

硬件与软件依赖与 Gemini 3 Pro 一致,谷歌承诺以可持续方式运营,详情参考原模型卡片。


注:本文为精简版摘要,完整信息请参阅 Gemini 3.1 Pro 官方模型卡片

评论总结

以下是评论内容的总结:

1. 性能表现

  • 显著提升:Gemini 3.1 Pro在LiveCodeBench Pro上提升2887分,Terminal-Bench 2.0得分68.5%,成为榜首。
    引用:"Gemini 3.1 Pro score 68.5% on Terminal-Bench 2.0" (mustaphah)
    引用:"The biggest increase is LiveCodeBench Pro: 2887" (PunchTornado)
  • 视觉能力进步:SVG生成(如“独角兽玩Xbox”)表现优秀,但“鹈鹕骑自行车”测试仍有瑕疵。
    引用:"create a svg of a unicorn playing xbox" (nickandbro)
    引用:"The model thought for over 5 minutes...significant leap in complexity" (takoid)

2. 价格与性价比

  • 价格不变:输入$2/百万词,输出$12/百万词,显著低于Opus 4.6($5/$25)。
    引用:"Price is unchanged...compare to Opus 4.6's $5/M input" (minimaxir)
  • 性价比争议:部分用户认为2.5 Pro在特定场景(如医疗)更具成本优势。
    引用:"2.5 pro gives excellent results at a lower price point" (swalsh)

3. 缺点与批评

  • 工具调用与代理工作流不足:落后于Codex 5.2/5.3和Anthropic模型。
    引用:"not good at all at tool calling and agentic workflows" (the_duke)
  • 过度安全限制与响应慢:出现“愚蠢拒绝”且生成速度较慢。
    引用:"safety seems overtuned...really silly refusals" (LZ_Khan)
    引用:"Gemini chat seems...extremely slow" (jeffbee)

4. 用户体验

  • 对话风格生硬:被批评输出像“加粗列表”而非自然交流。
    引用:"everything reads as if the model was talking at me" (dxbednarczyk)
  • 界面复杂:API计费不透明,用户易混淆。
    引用:"UI was so hard to figure out I gave up" (Robdel12)

5. 市场策略与定位

  • 目标用户不明确:对比Anthropic(开发者)和OpenAI(通用),Gemini定位模糊。
    引用:"Who are the target demographic for Gemini?" (quacky_batak)
  • 版本混乱:用户对3.1 Pro与3 Deep Think的关系感到困惑。
    引用:"Keeping track of these releases is ridiculous" (zokier)

6. 未来期待

  • 期待Flash版本:当前Flash模型速度快但需改进代理能力。
    引用 "Flash would be great for many tasks" (the_duke)
  • 担忧功能削弱:用户希望付费保留未削弱版本。
    引用 "Great model until it gets nerfed" (makeavish)

总结:Gemini 3.1 Pro在基准测试和视觉任务上表现突出,性价比高,但代理能力、交互自然度和用户体验仍有不足,市场定位需更清晰。