Hacker News 中文摘要

RSS订阅

双子座2.5计算机使用模型 -- Gemini 2.5 Computer Use model

文章摘要

谷歌推出基于Gemini 2.5 Pro的计算机使用模型,该模型具备视觉理解和推理能力,可构建能与用户界面交互的智能代理。该模型在网络和移动控制基准测试中表现优异且延迟更低,开发者现可通过Gemini API在Google AI Studio和Vertex AI上使用。

文章总结

谷歌推出Gemini 2.5计算机操作模型:革新用户界面交互体验

谷歌DeepMind团队于2025年10月7日正式发布基于Gemini 2.5 Pro的计算机操作模型,该模型现已在Gemini API中开放预览。这一专业模型通过视觉理解和推理能力,使开发者能够构建可与用户界面直接交互的智能代理程序。

核心功能

• 模型通过新型"computer_use"工具运行,采用循环工作机制 • 输入包括用户请求、环境截图和近期操作记录 • 输出为UI操作指令(如点击、输入等),部分高风险操作需用户确认 • 特别优化网页浏览器操作,同时展现移动端UI控制潜力

性能表现

• 在Browserbase和自主测试中,多项网页及移动控制基准测试领先 • 在Online-Mind2Web测试中实现最低延迟的浏览器控制 • 相比竞品解决方案,执行速度提升最高达50%

安全机制

  1. 内置三层防护:
    • 防止用户恶意使用
    • 防范模型异常行为
    • 抵御网页环境中的诱导攻击
  2. 开发者可设置:
    • 逐步安全检查服务
    • 高风险操作确认机制
  3. 特别禁止自动完成医疗设备控制等敏感操作

应用案例

• Google内部已应用于UI测试,显著加速软件开发 • 早期测试者成功实现: - 个人助理开发(Poke.com消息平台) - 高精度数据采集(Autotab自动化代理) - 支付系统容错处理(修复60%测试失败案例)

获取方式

开发者可通过以下渠道体验: 1. 演示环境:Browserbase托管平台 2. 开发平台:Google AI Studio及Vertex AI 3. 资源支持:GitHub参考代码及详细文档 4. 社区互动:开发者论坛反馈渠道

(注:本文保留核心技术创新点、性能数据和典型应用案例,删减了重复的性能说明和部分企业宣传性内容,优化了技术术语的中文表达)

评论总结

  1. 模型功能评价:

    • 正面评价:认为新模型在工具调用和结构化输出方面表现优异,可能比现有工具更好用。 "I assume its tool calling and structured output are way better" (strangescript) "I've had good success with...so I'm guessing this model will work even better" (xnx)
  2. 安全担忧:

    • 负面评价:担心模型可能被滥用,破坏现有的反机器人机制。 "ruin simple honeypot form fields meant to detect bots" (cryptoz) "successfully got through the captcha" (phamilton)
  3. 应用场景质疑:

    • 中立评价:质疑在人类界面效率不高的情况下训练AI的合理性。 "doesn't seem like it makes sense to train AI around human user interfaces which aren't really efficient" (password54321) "like building a mechanical horse" (password54321)
  4. 组织管理问题:

    • 中立提问:询问是否将员工激励与使用Gemini挂钩。 "Have average Google developers been told/hinted that their bonuses/promotions will be tied to..." (dude250711)