文章摘要
ChatGPT现在可以通过其虚拟计算机为用户处理复杂任务,从分析数据到生成可编辑的演示文稿。它结合了网站交互、信息整合和对话智能的能力,能够根据用户指令完成从日程管理到竞争对手分析等任务。用户始终掌握控制权,ChatGPT在执行重要操作前会请求许可,并允许随时中断或接管任务。
文章总结
主要内容总结
标题: 介绍ChatGPT代理:连接研究与行动
文章概述: OpenAI推出了ChatGPT代理功能,使其能够自主完成复杂任务,从开始到结束,用户只需提供指令。这一功能结合了Operator的网页交互能力、deep research的信息整合能力以及ChatGPT的智能和对话流畅性,形成了一个统一的代理系统。
核心功能: 1. 任务执行: ChatGPT可以处理如查看日历、规划购物、分析竞争对手并创建幻灯片等复杂任务。它能够智能地浏览网页、过滤结果、运行代码、进行分析,并生成可编辑的幻灯片和电子表格。 2. 用户控制: 用户始终掌握控制权,ChatGPT在执行重要操作前会请求许可,用户可以随时中断或接管任务。 3. 工具集成: ChatGPT代理配备了多种工具,包括图形用户界面的浏览器、基于文本的浏览器、终端和直接API访问。它还可以通过ChatGPT连接器与Gmail、Github等应用集成,获取相关信息。
应用场景: - 工作场景: 自动化重复任务,如将截图转换为可编辑的演示文稿、重新安排会议、更新电子表格等。 - 个人生活: 规划旅行、设计晚宴、预约专家等。
性能评估: - Humanity’s Last Exam: ChatGPT代理在专家级问题上的表现达到了41.6的pass@1 SOTA(最新技术水平)。 - FrontierMath: 在数学基准测试中,ChatGPT代理的准确率达到27.4%,显著优于之前的模型。 - DSBench: 在数据科学任务中,ChatGPT代理的表现显著超过人类。 - SpreadsheetBench: 在电子表格编辑任务中,ChatGPT代理的表现优于现有模型,特别是在直接编辑电子表格时,得分达到45.5%。
使用方法: 用户可以通过工具下拉菜单在任何对话中激活“代理模式”,描述所需任务,ChatGPT将执行任务并提供屏幕旁白,用户可以随时中断或接管浏览器。
风险与安全: - 提示注入: ChatGPT代理经过训练和测试,能够识别和抵抗提示注入攻击,并在执行重要操作前请求用户确认。 - 模型错误: ChatGPT在采取有现实世界影响的操作前会明确请求用户许可,某些关键任务需要用户主动监督。 - 数据限制: 用户可以通过设置删除所有浏览数据,并在使用浏览器接管模式时保持输入隐私。
生物安全: ChatGPT代理被视为具有高生物和化学能力,OpenAI采取了全面的安全措施,包括威胁建模、双重用途拒绝训练、始终在线的分类器和推理监控,以及明确的执行管道。
可用性: ChatGPT代理功能已开始向Pro、Plus和Team用户推出,Enterprise和Education用户将在未来几周内获得访问权限。欧洲经济区和瑞士的访问仍在开发中。
未来展望: 尽管ChatGPT代理已经能够处理多种复杂任务,但仍处于早期阶段,存在一些限制。OpenAI正在持续改进其效率、深度和多功能性,并减少用户所需的监督量,以确保其安全性和实用性。
附录: 提供了SpreadsheetBench的详细评估结果,展示了不同模型在不同环境下的表现。
图片: 无
链接: Humanity’s Last Exam, DSBench, WebArena, BrowseComp, Preparedness Framework, system card, bug bounty program
评论总结
主要观点总结:
LLM对现实世界的影响
- 正面观点:LLM(大语言模型)开始影响物理世界,用户通过输入提示,实物可以送到家门口,未来十年可能推动全球经济。
- 引用:"This feels like one of the first moments where LLMs will start affecting the physical world."
- 质疑观点:当前的代理系统在个人生活中的实用性有限,尤其是在处理复杂任务时,如安排约会、预订保姆等,需要高度信任和集成。
- 引用:"If I ask this to plan a date night with my wife this weekend, it needs to consult my calendar to pick the best night, pick a bar and restaurant we like..."
- 正面观点:LLM(大语言模型)开始影响物理世界,用户通过输入提示,实物可以送到家门口,未来十年可能推动全球经济。
技术集成与实用性
- 正面观点:OpenAI的代理系统在用户计算机上直接运行,解决了密码管理和访问控制问题,提升了用户体验。
- 引用:"It's smart that they're pivoting to using the user's computer directly - managing passwords, access control and not getting blocked was the biggest issue."
- 质疑观点:代理系统在处理复杂任务时,2%的错误可能导致大量麻烦,尤其是在涉及个人数据和金钱的场景中。
- 引用:"If it can do 90 - 95% of the time consuming work, that will save you a ton of time... but as these use cases encourage users to input more complex tasks, 'almost right' seems like it has the potential to cause a lot of headaches."
- 正面观点:OpenAI的代理系统在用户计算机上直接运行,解决了密码管理和访问控制问题,提升了用户体验。
隐私与安全问题
- 正面观点:OpenAI强调了代理系统访问敏感信息的巨大风险,并采取了部分缓解措施。
- 引用:"Very slightly impressed by their emphasis on the gigantic risk of giving the thing access to real creds and sensitive info."
- 质疑观点:代理系统可能面临新的提示注入攻击,导致数据泄露或诈骗,尤其是在全球失业率上升的背景下。
- 引用:"Time to start the clock on a new class of prompt injection attacks on 'AI agents' getting hacked or scammed..."
- 正面观点:OpenAI强调了代理系统访问敏感信息的巨大风险,并采取了部分缓解措施。
市场竞争与用户体验
- 正面观点:OpenAI的代理系统在用户界面设计上表现出色,提供了直观的视觉反馈,提升了用户体验。
- 引用:"The UI shown, with the text overlay, readable mouse and tailored UI components looks very visually appealing..."
- 质疑观点:其他公司的解决方案(如Perplexity Comet)在某些方面更具吸引力,OpenAI的代理系统可能显得不够突出。
- 引用:"Perplexity Comet feels more immediately compelling as new paradigm of a natural way of using LLMs within a browser."
- 正面观点:OpenAI的代理系统在用户界面设计上表现出色,提供了直观的视觉反馈,提升了用户体验。
法律与监管问题
- 负面观点:欧洲的法规导致OpenAI无法在欧盟发布代理系统,欧洲可能因此落后于技术发展。
- 引用:"The European regulations causing them to not release this in the EU are really unfortunate. The continent is getting left behind."
- 质疑观点:OpenAI未明确说明是否会根据法院命令将用户数据交给《纽约时报》,引发隐私担忧。
- 引用:"They did not address whether they would be handing all of that data over under the court-order to the NYT."
- 负面观点:欧洲的法规导致OpenAI无法在欧盟发布代理系统,欧洲可能因此落后于技术发展。
总结:
评论中对OpenAI的代理系统既有期待也有质疑。正面观点认为其在用户体验、技术集成和隐私保护方面有所突破,而质疑观点则集中在实用性、错误处理、隐私安全以及法律监管等问题上。总体来看,代理系统的潜力巨大,但仍需解决诸多挑战才能广泛应用于日常生活。