Hacker News 中文摘要

RSS订阅

试用Gemini 3 Pro:音频转录与新鹈鹕基准测试 -- Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark

文章摘要

谷歌发布了Gemini 3 Pro模型,这是对Gemini 2.5的升级,性能接近领先的竞争对手模型。它支持100万输入token和6.4万输出token,具备多模态输入能力。基准测试显示其表现略优于Claude 4.5 Sonnet和GPT-5.1。作者通过AI Studio提前体验了该模型。

文章总结

谷歌发布Gemini 3 Pro大模型:功能升级与实测体验

2025年11月18日,谷歌正式推出Gemini 3 Pro人工智能模型。该模型在Gemini 2.5基础上进行了显著升级,主要特性包括:

  1. 核心参数
  • 知识截止日期:2025年1月
  • 支持100万输入token和64,000输出token
  • 多模态支持:文本、图像、音频和视频
  1. 性能表现 基准测试显示,Gemini 3 Pro在多数标准测试中略优于Claude 4.5 Sonnet和GPT-5.1。具体表现在:
  • 学术推理(Humanity's Last Exam):37.5% → 45.8%(启用工具后)
  • 视觉推理(ARC-AGI-2):31.1%(较2.5版的4.9%显著提升)
  • 数学能力(AIME 2025):95% → 100%(启用代码执行)
  1. 定价策略 采用分级收费模式(单位:百万token): | 模型 | 输入费用 | 输出费用 | |------|---------|---------| | Gemini 3 Pro | $2.0-$4.0 | $12.0-$18.0 | | GPT-5.1 | $1.25 | $10.00 | | Claude Sonnet 4.5 | $3.0-$6.0 | $15.0-$22.5 |

实测案例: 1. 图像理解测试 成功解析包含复杂基准测试数据的表格图像,生成详细文字描述(消耗1,105输入/3,901输出token,成本约5.68美分),并能转换为结构化JSON格式。

  1. 音频转录测试 对3小时33分钟的城市议会会议录音进行压缩处理后:
  • 生成包含时间戳、发言人、重点标注(如争论内容)的完整会议记录
  • 存在时间戳不准确问题(如将实际3:31:05的结束时间标记为1:04:00)
  • 处理成本:320,087输入/7,870输出token,共计1.42美元
  1. 图像生成测试 新增"思考级别"参数(低/高),通过鹈鹕骑自行车测试发现:
  • 低级别:生成戴蓝帽的卡通风格鹈鹕
  • 高级别:绘制更精确的自行车结构和鹈鹕形态 升级版测试要求生成展示繁殖羽的加州褐鹈鹕骑行图,各模型表现:
  • Gemini 3 Pro:完成度最佳但略显抽象
  • GPT-5.1:造型圆润但身体遮挡自行车
  • Claude 4.5:结构存在明显缺陷

值得注意的是,所有模型都忽略了"加州褐鹈鹕实际并非褐色"这一关键细节。此次发布标志着大模型在多模态理解和复杂任务处理能力上的持续进步。

(注:原文中的图片链接、具体测试数据表格及完整转录文本等细节内容已作简化处理,核心信息均予保留)

评论总结

以下是评论内容的总结:

  1. AI会议转录的潜力与问题

    • 观点:AI辅助会议转录对新闻业有价值,但准确性存疑
    • 引用:
      "Summarizing a 3.5 hour council meeting is something of a holy grail of AI-assisted reporting"
      "the timestamps are incorrect - means it's very hard to trust the output"
    • 作者:simonw
  2. 技术实现建议

    • 观点:应采用多步骤流程提高转录准确性
    • 引用:
      "You're better off using encoder-decoder ASR architectures...then get reconciled"
      "every additional dimension you add will make the others worse"
    • 作者:leetharris
  3. 关于pelican基准测试的讨论

    • 正面评价:
      "Love the pivot in pelican generation bench" - razodactyl
    • 负面评价:
      "I liked that the old prompt was vague" - Wowfunhappy
    • 其他:
      有用户建议进行人工对比测试(londons_explore),另有用户提到基准测试被加入训练过程(nurumaik)
  4. 其他技术讨论

    • 对ffmpeg使用的赞赏(ZeroConcerns)
    • 关于LLM基准测试的恶作剧项目(scosman)

总结:讨论主要围绕AI会议转录的实用性与技术挑战展开,同时包含对pelican基准测试改进的不同看法。技术建议方面,有专家提出应采用分步处理流程来提高转录质量。