文章摘要
谷歌推出基于Gemini 2.5 Pro的计算机使用模型,该模型具备视觉理解和推理能力,可构建能与用户界面交互的智能代理。该模型在网络和移动控制基准测试中表现优异且延迟更低,开发者现可通过Gemini API在Google AI Studio和Vertex AI上使用。
文章总结
谷歌推出Gemini 2.5计算机操作模型:革新用户界面交互体验
谷歌DeepMind团队于2025年10月7日正式发布基于Gemini 2.5 Pro的计算机操作模型,该模型现已在Gemini API中开放预览。这一专业模型通过视觉理解和推理能力,使开发者能够构建可与用户界面直接交互的智能代理程序。
核心功能
• 模型通过新型"computer_use"工具运行,采用循环工作机制 • 输入包括用户请求、环境截图和近期操作记录 • 输出为UI操作指令(如点击、输入等),部分高风险操作需用户确认 • 特别优化网页浏览器操作,同时展现移动端UI控制潜力
性能表现
• 在Browserbase和自主测试中,多项网页及移动控制基准测试领先 • 在Online-Mind2Web测试中实现最低延迟的浏览器控制 • 相比竞品解决方案,执行速度提升最高达50%
安全机制
- 内置三层防护:
- 防止用户恶意使用
- 防范模型异常行为
- 抵御网页环境中的诱导攻击
- 开发者可设置:
- 逐步安全检查服务
- 高风险操作确认机制
- 特别禁止自动完成医疗设备控制等敏感操作
应用案例
• Google内部已应用于UI测试,显著加速软件开发 • 早期测试者成功实现: - 个人助理开发(Poke.com消息平台) - 高精度数据采集(Autotab自动化代理) - 支付系统容错处理(修复60%测试失败案例)
获取方式
开发者可通过以下渠道体验: 1. 演示环境:Browserbase托管平台 2. 开发平台:Google AI Studio及Vertex AI 3. 资源支持:GitHub参考代码及详细文档 4. 社区互动:开发者论坛反馈渠道
(注:本文保留核心技术创新点、性能数据和典型应用案例,删减了重复的性能说明和部分企业宣传性内容,优化了技术术语的中文表达)
评论总结
模型功能评价:
- 正面评价:认为新模型在工具调用和结构化输出方面表现优异,可能比现有工具更好用。 "I assume its tool calling and structured output are way better" (strangescript) "I've had good success with...so I'm guessing this model will work even better" (xnx)
安全担忧:
- 负面评价:担心模型可能被滥用,破坏现有的反机器人机制。 "ruin simple honeypot form fields meant to detect bots" (cryptoz) "successfully got through the captcha" (phamilton)
应用场景质疑:
- 中立评价:质疑在人类界面效率不高的情况下训练AI的合理性。 "doesn't seem like it makes sense to train AI around human user interfaces which aren't really efficient" (password54321) "like building a mechanical horse" (password54321)
组织管理问题:
- 中立提问:询问是否将员工激励与使用Gemini挂钩。 "Have average Google developers been told/hinted that their bonuses/promotions will be tied to..." (dude250711)