Hacker News 中文摘要

文章摘要

谷歌发布了Gemini 3 Pro模型，这是对Gemini 2.5的升级，性能接近领先的竞争对手模型。它支持100万输入token和6.4万输出token，具备多模态输入能力。基准测试显示其表现略优于Claude 4.5 Sonnet和GPT-5.1。作者通过AI Studio提前体验了该模型。

谷歌发布Gemini 3 Pro大模型：功能升级与实测体验

2025年11月18日，谷歌正式推出Gemini 3 Pro人工智能模型。该模型在Gemini 2.5基础上进行了显著升级，主要特性包括：

定价策略采用分级收费模式（单位：百万token）： | 模型 | 输入费用 | 输出费用 | |------|---------|---------| | Gemini 3 Pro | $2.0-$4.0 | $12.0-$18.0 | | GPT-5.1 | $1.25 | $10.00 | | Claude Sonnet 4.5 | $3.0-$6.0 | $15.0-$22.5 |

实测案例： 1. 图像理解测试成功解析包含复杂基准测试数据的表格图像，生成详细文字描述（消耗1,105输入/3,901输出token，成本约5.68美分），并能转换为结构化JSON格式。

值得注意的是，所有模型都忽略了"加州褐鹈鹕实际并非褐色"这一关键细节。此次发布标志着大模型在多模态理解和复杂任务处理能力上的持续进步。

（注：原文中的图片链接、具体测试数据表格及完整转录文本等细节内容已作简化处理，核心信息均予保留）

以下是评论内容的总结：

AI会议转录的潜力与问题
- 观点：AI辅助会议转录对新闻业有价值，但准确性存疑
- 引用：
  "Summarizing a 3.5 hour council meeting is something of a holy grail of AI-assisted reporting"
  "the timestamps are incorrect - means it's very hard to trust the output"
- 作者：simonw
技术实现建议
- 观点：应采用多步骤流程提高转录准确性
- 引用：
  "You're better off using encoder-decoder ASR architectures...then get reconciled"
  "every additional dimension you add will make the others worse"
- 作者：leetharris
关于pelican基准测试的讨论
- 正面评价：
  "Love the pivot in pelican generation bench" - razodactyl
- 负面评价：
  "I liked that the old prompt was vague" - Wowfunhappy
- 其他：
  有用户建议进行人工对比测试（londons_explore），另有用户提到基准测试被加入训练过程（nurumaik）
其他技术讨论
- 对ffmpeg使用的赞赏（ZeroConcerns）
- 关于LLM基准测试的恶作剧项目（scosman）

总结：讨论主要围绕AI会议转录的实用性与技术挑战展开，同时包含对pelican基准测试改进的不同看法。技术建议方面，有专家提出应采用分步处理流程来提高转录质量。