文章摘要
文章指出,尽管2025年被预测为AI"加入职场"的转折点,但实际进展未达预期。OpenAI高管曾预言AI代理将能处理复杂任务如填写文件、预订酒店等,但现实中的AI仍停留在简单问答和文本处理阶段,未能实现自主完成多步骤工作的愿景。这揭示了AI技术发展与企业应用之间的现实差距。
文章总结
标题:为何AI未能在2025年"加入职场"?——卡尔·纽波特
一年前,山姆·奥特曼曾大胆预言:"我们相信到2025年,首批AI代理将'加入职场',实质性改变企业产出。"随后OpenAI产品总监凯文·韦尔进一步阐述,称2025年将是"ChatGPT从超级智能工具转变为能为你处理现实事务"的转折年,比如填写文书、预订酒店等。《Axios》对此的报道标题更为直白:"2025是AI代理元年"。
这类承诺意义重大。与仅能总结文本的聊天机器人不同,AI代理理论上能处理需要多步骤决策的复杂任务。奥特曼设想的场景是:人们可以像分配任务给人类员工那样,将项目委托给AI代理。要实现AI主导的未来,代理技术是关键。
行业对2025年抱持乐观确有依据。此前Claude Code和OpenAI Codex等AI代理已展现出处理多步骤编程问题的能力,这种能力似乎可延伸至其他领域。Salesforce CEO马克·贝尼奥夫甚至在2025年初预言AI代理将引发价值"数万亿美元的数字劳工革命"。
但现实是:这些预言全部落空。
正如我在《纽约客》最新文章中指出,AI代理完全未能达到预期。我们并未获得适用于其他工作场景的Claude Code级产品,已发布的ChatGPT代理等产品也远未达到接管主要工作的水平(文中举例:该代理花费14分钟仍无法成功选择房产网站的下拉菜单值)。
科技评论家加里·马库斯指出,支撑这些代理的大语言模型技术本质上无法兑现承诺:"他们只是在笨拙的工具上堆砌更多笨拙工具。"OpenAI联合创始人安德烈·卡帕西也承认行业存在"过度预测",认为更准确的说法应是"代理的十年"。
这揭示了一个事实:我们其实并不具备建造"数字员工"的能力。
关于2025年为何未能成为AI代理元年,详见我在《纽约客》的完整分析。但更关键的是:希望2026年我们能停止关注AI的潜在可能,转而聚焦其真实能力。
例如,萨尔·可汗近期在《纽约时报》声称"AI将取代的岗位规模远超人们想象"。但细究其论据——某企业主称AI代理"可能"取代80%客服,或Waymo耗时费力的自动驾驶测绘——这些个案远不能证明普遍性就业危机。
这就是我对2026年AI的思考立场:停止臆测。我们不应再为情绪驱动的假设买单,现有技术带来的实际影响已足够我们应对。
评论总结
以下是评论内容的总结,平衡呈现不同观点并保留关键引用:
对AI现状的谨慎态度
质疑AI取代工作的预测
- 有评论指出Frey & Osborne关于AI导致失业的研究方法存在争议,需谨慎看待相关数据。
"After posting that, I came across numerous papers which critique Frey & Osborne’s approach..." (dandelionv1bes) - 远程工作市场仍活跃,若AI真能替代人力,企业不会突然接受远程办公。
"If AI could do it or even reduced head count I don’t think that would be the case." (matt3210)
- 有评论指出Frey & Osborne关于AI导致失业的研究方法存在争议,需谨慎看待相关数据。
反对夸大AI能力
- 批评Gary Marcus等对AI的悲观预测,认为其长期错误但仍被引用。
"Marcus has been wrong about nearly everything related to AI for years..." (senordevnyc) - 当前AI工具(如ChatGPT Agent)在基础任务(如下拉菜单选择)中表现笨拙。
"ChatGPT Agent spends fourteen minutes futilely trying to select a value..." (jcastro)
- 批评Gary Marcus等对AI的悲观预测,认为其长期错误但仍被引用。
AI的实际影响与争议
支持关注当下能力
- 呼吁停止空谈未来预测,聚焦AI现有技术的影响。
"Enough of the predictions. I’m done reacting to hypotheticals propped up by vibes." (edfletcher_t137) - 类比环保问题:未来核电站无法解决当前污染导致的儿童哮喘。
"Your prediction might be correct...but their kid still has asthma." (evil-olive)
- 呼吁停止空谈未来预测,聚焦AI现有技术的影响。
AI已悄然改变工作方式
- 学生用ChatGPT作弊加剧,Chegg股价崩溃是证据。
"The collapse of Chegg should tell you...they are now doing super-powerful cheating." (doctorpangloss) - 企业员工通过AI自动化流程,隐性提升效率,未来可能裁员。
"300 of 500 people could effectively be replaced by AI...jobs will go quietly away." (observationist)
- 学生用ChatGPT作弊加剧,Chegg股价崩溃是证据。
技术局限性与行业分歧
LLM的局限性
- LLM仅擅长文本处理,无法胜任需视觉/听觉的通用任务。
"LLMs are a flawed technology for general, true agents...we have only created a self-writing paper yet." (bpavuk) - 编程领域提升显著(如Claude Code),但其他行业应用有限。
"It’s useful for way more than just writing code...Clicking links is still pretty hard." (simonw)
- LLM仅擅长文本处理,无法胜任需视觉/听觉的通用任务。
经济与实用性争议
- AI代理公司已盈利,但复杂任务普及仍需时间。
"Agentic AI companies are doing millions in revenue...not useful for the entire economy yet." (ahussain) - 缺乏物理交互能力(如机器人)限制AI对实体经济的影响。
"Without a breakthrough in general-purpose robotics...digital abundance is uninspiring." (wcfrobert)
- AI代理公司已盈利,但复杂任务普及仍需时间。
开发者视角与未来预期
开发者工具的高效性
- AI工具(如Codex)可自动化代码提交、测试等全流程。
"Codex was able to read the ticket, generate code, test it...and update Jira." (fragmede) - 但多团队协作中AI的实用性存疑,尤其受监管行业。
"How exactly do they use these agents in regulated industries?" (moezd)
- AI工具(如Codex)可自动化代码提交、测试等全流程。
职业危机感
- 开发者认为AI工具比同事更有价值,担忧自身被取代。
"Gemini/Claude is way more useful to me than any coworker...that coworker will be me." (thw09j9m) - 部分人认为AI已通过提升GDP间接“加入劳动力”。
"The unexpected overperformance of GDP is in the 'how did that happen?' conversation." (ineedasername)
- 开发者认为AI工具比同事更有价值,担忧自身被取代。
总结
评论呈现两极分化:
- 乐观派强调AI已提升效率(尤其编程领域),并逐步渗透各行业;
- 怀疑派指出技术局限性(如多模态缺陷)、预测夸大及隐性失业风险。
共同点是呼吁更务实讨论,减少对未来假设的依赖。