文章摘要
人工智能研究中的“世界模型”概念正在复兴,被视为实现人工通用智能(AGI)的关键。世界模型是AI对环境的内部简化表示,帮助其在执行任务前评估预测和决策。深度学习领域的领军人物如Yann LeCun、Demis Hassabis和Yoshua Bengio都认为世界模型对构建真正智能、科学且安全的AI系统至关重要。这一概念在心理学、机器人和机器学习领域已有数十年应用,类似于人类大脑中的环境认知机制。
文章总结
标题:AI中的“世界模型”概念再度崛起
主要内容:
人工智能研究的最新目标,尤其是在追求“人工通用智能”(AGI)的实验室中,是所谓的“世界模型”:一种AI内部携带的环境表征,类似于一个计算版的“雪花球”。AI系统可以利用这种简化的表征来评估预测和决策,然后再将其应用于现实世界的任务中。深度学习领域的领军人物,如Meta的Yann LeCun、Google DeepMind的Demis Hassabis和魁北克人工智能研究所Mila的Yoshua Bengio,都认为世界模型对于构建真正智能、科学且安全的AI系统至关重要。
心理学、机器人学和机器学习领域几十年来一直在使用某种形式的世界模型概念。人类大脑中也运行着类似的世界模型,它让我们无需实际实验就能避免做出危险行为,比如不站在行驶的火车前。
然而,尽管世界模型听起来简单,但细节上仍存在争议。模型应包含哪些内容?其精确度如何?它是天生的还是后天学习的?如何检测它的存在?
世界模型的概念最早可以追溯到1943年,苏格兰心理学家Kenneth Craik提出,生物体如果在其头脑中携带外部现实的“小规模模型”,就能更好地应对各种情况。这一思想直接关联了认知与计算,Craik认为“模拟外部事件的能力”是“神经机制”和“计算机制”的基本特征。
人工智能领域在20世纪60年代末开始采用世界模型方法,例如AI系统SHRDLU通过简单的“积木世界”回答常识性问题。然而,这些手工构建的模型无法扩展到更复杂的现实场景。到了20世纪80年代,AI和机器人学先驱Rodney Brooks甚至完全放弃了世界模型,认为“世界本身就是最好的模型”。
随着机器学习的兴起,尤其是基于人工神经网络的深度学习,Craik的思想重新焕发生机。深度神经网络通过试错法构建其训练环境的内部近似,并用于完成特定任务,如驾驶虚拟赛车。近年来,随着像ChatGPT这样的大型语言模型展现出未经明确训练的“涌现能力”,世界模型为这些现象提供了合理解释。AI专家们认为,这些模型内部必然存在一个“外部现实的小规模模型”。
然而,现实并不如想象中美好。今天的生成式AI似乎学习的是“启发式规则的集合”,这些规则可以近似应对特定场景,但并不形成一个一致的整体。这就像盲人摸象的寓言,每个盲人只触摸到象的一部分,无法理解其整体形态。
尽管这些启发式规则并非无用,但它们缺乏一致性。例如,研究人员发现,一个语言模型可以在不学习整个街道网络的情况下生成曼哈顿任意两点之间的近乎完美的路线。然而,当随机封锁1%的街道时,模型的性能急剧下降。如果AI编码了一个一致的街道地图,它就能轻松绕过障碍。
因此,尽管简单的世界模型有其局限性,但它们带来的好处使得各大AI实验室都迫切希望开发它们。学术界也越来越关注如何验证这些模型。稳健且可验证的世界模型可能无法实现AGI的“黄金国”,但至少可以作为一种科学工具,减少AI的幻觉,增强其推理能力和可解释性。
目前,Google DeepMind和OpenAI认为,通过足够的“多模态”训练数据(如视频、3D模拟等),世界模型将在神经网络中自发形成。而Meta的LeCun则认为,需要一种全新的(非生成式的)AI架构来提供必要的支持。在这场构建“计算雪花球”的竞赛中,虽然没有人拥有“水晶球”,但最终的回报可能值得期待。
评论总结
评论内容总结:
AI在棋盘游戏中的应用:
- 作者AnotherGoodName认为,实现完整的游戏逻辑并结合启发式剪枝是构建高效AI的关键,类似于国际象棋引擎的工作方式。他尝试使用PyTorch处理大量游戏状态数据,但结果不理想,AI常做出无效决策。他认为,尽管AI在启发式评估上有所帮助,但仍需手动构建世界模型并进行前瞻扫描。
- 引用:“Fwiw nothing beats ‘implement the game logic in full (huge amounts of work) and with pruning on some heuristics look 50 moves ahead’.”
- 引用:“You still need to implement the world model and look ahead to use those heuristics though!”
神经网络训练的局限性:
- nathan_douglas指出,神经网络训练依赖于数据,但现有数据往往不完整或不准确。他提出使用多种机器人进行实地观察,以构建更准确的世界模型。
- 引用:“I’m sure neural networks are a great tool here, but I don’t know how the training would proceed effectively off ‘mere data’.”
- 引用:“The aggregate of their observations is the useful output, kinda like networked toddlers.”
世界模型的复杂性:
- tsunamifury提到,早期世界模型因复杂性而失败,认为唯一解决方案是将世界转移到平行模拟中。srush分享了一个关于AI世界模型挑战的教程视频。
- 引用:“The only way ai could handle a world model was to just get rid of the real one.”
- 引用:“Evaluating AI’s World Models (https://www.youtube.com/watch?v=hguIUmMsvA4)”
AI的通用智能能力:
- dejongh认为,AI必须具备“在头脑中运行实验并预测结果”的能力,才能达到某种通用智能水平。
- 引用:“The concept ‘run an experiment in your head and predict the outcome’ is a capability that AIs must have to attain some kind of general intelligence.”
用户定义的世界模型:
- ryukoposting提到,GPT-5允许用户定义上下文无关语法,但这并不能作为真正的世界模型,因为需要编码的内容过多。
- 引用:“One way of thinking about this feature is that it’s a user-defined world model.”
- 引用:“Obviously you can’t actually use this feature as a true world model.”
世界模型的构建与优化:
- jonbaer强调,快速识别和适应世界变化的能力是AI的关键,但目前这一能力尚未被优化。
- 引用:“The real AI is in a) how fast you can realize it’s changed and b) how fast you can adapt.”
人类与世界模型的对比:
- BariumBlue指出,人类也无法完全记住棋盘上的所有信息,即使是国际象棋大师也无法记住随机摆放的64个棋子。
- 引用:“Humans don’t exactly have a full representation of board space in their head either.”
简化世界模型的尝试:
- mingtianzhang提出,与其建模整个世界,不如构建一个“唯我论”模型,专注于个体视角的世界理解。
- 引用:“Instead of modelling the whole world, you can build your own Solipsistic model.”