Hacker News 中文摘要

文章摘要

谷歌推出基于Gemini 2.5 Pro的计算机使用模型，该模型具备视觉理解和推理能力，可构建能与用户界面交互的智能代理。该模型在网络和移动控制基准测试中表现优异且延迟更低，开发者现可通过Gemini API在Google AI Studio和Vertex AI上使用。

谷歌推出Gemini 2.5计算机操作模型：革新用户界面交互体验

谷歌DeepMind团队于2025年10月7日正式发布基于Gemini 2.5 Pro的计算机操作模型，该模型现已在Gemini API中开放预览。这一专业模型通过视觉理解和推理能力，使开发者能够构建可与用户界面直接交互的智能代理程序。

• 模型通过新型"computer_use"工具运行，采用循环工作机制 • 输入包括用户请求、环境截图和近期操作记录 • 输出为UI操作指令（如点击、输入等），部分高风险操作需用户确认 • 特别优化网页浏览器操作，同时展现移动端UI控制潜力

• 在Browserbase和自主测试中，多项网页及移动控制基准测试领先 • 在Online-Mind2Web测试中实现最低延迟的浏览器控制 • 相比竞品解决方案，执行速度提升最高达50%

• Google内部已应用于UI测试，显著加速软件开发 • 早期测试者成功实现： - 个人助理开发（Poke.com消息平台） - 高精度数据采集（Autotab自动化代理） - 支付系统容错处理（修复60%测试失败案例）

开发者可通过以下渠道体验： 1. 演示环境：Browserbase托管平台 2. 开发平台：Google AI Studio及Vertex AI 3. 资源支持：GitHub参考代码及详细文档 4. 社区互动：开发者论坛反馈渠道

（注：本文保留核心技术创新点、性能数据和典型应用案例，删减了重复的性能说明和部分企业宣传性内容，优化了技术术语的中文表达）

模型功能评价：
- 正面评价：认为新模型在工具调用和结构化输出方面表现优异，可能比现有工具更好用。 "I assume its tool calling and structured output are way better" (strangescript) "I've had good success with...so I'm guessing this model will work even better" (xnx)
安全担忧：
- 负面评价：担心模型可能被滥用，破坏现有的反机器人机制。 "ruin simple honeypot form fields meant to detect bots" (cryptoz) "successfully got through the captcha" (phamilton)
应用场景质疑：
- 中立评价：质疑在人类界面效率不高的情况下训练AI的合理性。 "doesn't seem like it makes sense to train AI around human user interfaces which aren't really efficient" (password54321) "like building a mechanical horse" (password54321)
组织管理问题：
- 中立提问：询问是否将员工激励与使用Gemini挂钩。 "Have average Google developers been told/hinted that their bonuses/promotions will be tied to..." (dude250711)