机器之心报道
编辑:泽南、Panda
越通用,就越World Models。
我们知道,大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。
如今,在通用人工智能(AGI)初现曙光,Scaling Laws 却疑似接近极限的当口,又是谷歌对未来方向进行了一番思考,想来想去还是只有五个词:
该论文已被机器学习顶会 ICML 收录。他们发现:如果一个 AI 智能体能够处理复杂的、长期的任务,那么它一定学习过一个内部世界模型——我们甚至可以通过观察智能体的行为来提取它。
世界模型是实现灵活、目标导向行为的必要要素,还是无需模型的学习就已足够?Google DeepMind 研究人员为这个问题提供了一个正式的答案——任何能够泛化到多步骤目标导向任务的智能体都必须学习其环境的预测模型。
更进一步,实验证明,这样的模型可以从智能体的策略中提取出来,而提升智能体的性能或其可实现目标的复杂性需要学习越来越精确的世界模型。这将带来一系列影响:从开发安全通用的智能体,到在复杂环境中限制智能体的能力,以及提供从智能体中获取世界模型的新算法。
香港中文大学博士 Richard C. Suwandi 撰写了一篇博客文章,详细解读了这篇开创性的论文及其对 AGI 未来的意义。
想象一下,如果我们能够构建一个像人类一样思考和计划的人工智能,未来会是什么样子。大语言模型(LLM)领域的最新突破使我们更接近这一目标。随着这些模型规模不断扩大,并接受更多数据的训练,它们会发展出所谓的涌现。
这显著提升了它们在各类下游任务上的表现。大模型的涌现引发了新一轮的研究,旨在创建能够在现实世界环境中处理复杂、长期任务的通用 AI 智能体。但令人着迷的是:人类不仅对他们所见的事物做出反应,我们还建立了丰富的心智模型来建模世界的运作方式。这些世界模型可帮助我们设定雄心勃勃的目标,并制定周到的计划。因此,基于这一观察,我们很自然地会问:
世界模型对于实现人类水平的人工智能有用吗?
最近,Google DeepMind 的研究人员表明,学习世界模型不仅有益,而且对于一般智能体来说也是必要的。在这篇文章中,我们将讨论该论文的主要发现及其对 AI 智能体未来的影响。
我们需要世界模型吗?
1991 年,Rodney Brooks 提出了一个著名观点:「世界是其自身的最佳模型」。
他认为,智能行为可以自然地从无模型智能体中产生,只需通过一系列动作和感知与环境互动,无需构建世界运作方式的明确表征。无模型智能体的显著成功有力地支持了 Brooks 的论点,这些智能体在不同任务和环境中展现出了出色的泛化能力。这种无模型方法为创建通用 AI 智能体提供了一种颇具吸引力的途径,同时避免了学习显式世界模型的复杂性。
然而,最近的研究提出了一个有趣的可能性:即使是这些所谓的无模型智能体也可能正在表面之下学习隐式的世界模型和规划算法。
Ilya Sutskever 一直是对的?
这让人们回想起 2023 年 3 月,OpenAI 联合创始人 Ilya Sutskever 提出了一个深刻的论断:大型神经网络的功能远不止预测下一个单词,它实际上是在学习「世界模型」。他是这样说的:
他认为,神经网络学习的不仅仅是文本信息,而是我们这个世界的一种压缩表征。因此,我们预测下一个词的准确度越高,世界模型的保真度就越高。
智能体与世界模型
虽然 Ilya 的说法引人入胜,但当时尚不清楚如何将其形式化。但现在,谷歌 DeepMind 的研究人员已经证明,Ilya 的说法并非仅仅是一个假设,而是一条支配所有通用智能体的基本定律。
在论文中作者指出,「任何能够推广到广泛的简单目标导向任务的智能体都必须学习能够模拟其环境的预测模型,并且该模型始终可以从智能体中还原出来。」
任何满足界限的智能体都必须学习环境转换函数,该函数可以从其目标条件策略中提取出来。对于能够处理诸如到达特定状态等基本任务的智能体来说也是如此。
注意,上述内容仅适用于在多步骤范围内进行规划的智能体,因为它们需要了解行动如何影响未来状态。然而,只考虑即时奖励的「短视」智能体可能会避免学习世界模型,因为它们不需要预测长期后果。
为了使上述主张更加精确,作者开发了一个基于四个关键组成部分的严格数学框架:环境、目标、智能体和世界模型。
环境
假设环境是一个受控马尔可夫过程(cMP)本质上是一个没有指定奖励函数的马尔可夫决策过程。cMP 的构成包括状态空间 S、动作空间 A 以及过渡函数
作者假设环境是不可简化的和固定的。
目标
从有界智能体恢复世界模型的派生算法。
与其他研究的关联
这项工作的成果补充了人工智能研究的其他几个领域:
所提出的算法完善了环境、目标和策略之间的「三角」。规划在给定世界模型和目标(世界模型 + 目标 → 策略)的情况下确定最优策略,而逆向强化学习(IRL)给定世界模型和策略(世界模型 + 策略 → 目标),恢复目标。提出的算法通过给定智能体的策略和目标(策略 + 目标 → 世界模型),恢复世界模型来填补剩余的方向。正如 IRL 需要跨多个环境观察策略才能完全确定目标一样,算法需要观察智能体在多个目标上的行为,才能完全恢复世界模型。
虽然规划使用世界模型和目标来确定策略,而 IRL 和逆向规划使用智能体的策略和世界模型来识别其目标,但所提出的算法使用智能体的策略及其目标来识别世界模型。
传统的机械可解释性(MI)通常依赖于分析神经网络激活或使用监督探测另一方面,所提出的算法提供了一种新颖的方法,可以直接从智能体的策略行为中提取世界模型,即使在模型内部无法访问的情况下也能适用。这种无监督且与架构无关的方法适用于任何满足有限 regret 条件的智能体,无论其具体实现如何。对于 LLM,这意味着我们可以通过分析其目标导向行为来揭示其隐含的世界模型,而无需访问其内部表征。
最近的研究《Robust agents learn causal world models》表明,适应分布变化的智能体必须学习因果世界模型。该研究通过关注任务泛化而非领域泛化来补充这一理论。有趣的是,领域泛化需要比任务泛化更深的因果理解。
例如,在一个状态变量为 X 和 Y 是存在因果关系(X→Y),智能体只需学习转移概率即可实现最佳任务绩效,而无需了解潜在的因果关系。这暗示了 Pearl 因果层级的智能体版本其中不同的智能体能力(如领域或任务泛化)需要不同级别的因果知识。
这些发现对人工智能的发展和安全也具有着重要意义。大语言模型和其他人工智能系统中新功能的出现,可以用在针对各种训练任务进行优化时学习到的隐式世界模型来解释。从能力强大的智能体中提取世界模型的能力,为验证和校准提供了一种新的工具,因为模型保真度会随着智能体能力的提升而扩展。然而,学习复杂现实世界系统的精确世界模型本身就存在困难,这也从根本上限制了智能体的通用能力。
结论
或许,Ilya 在 2023 年的预测比我们意识到的更有前瞻性。如果上述结果属实,那么当前通过扩展语言模型来推进超级人工智能(ASI)的竞赛,或许暗地里就是一场构建更复杂世界模型的竞赛。我们也有可能正在见证一些更为深刻的变革:从 David Silver 和 Richard Sutton 所说的「人类数据时代」向「经验时代」的转变。虽然当前的人工智能系统通过模仿人类生成的数据实现了非凡的能力,但 Silver 和 Sutton 认为,超人类智能将主要通过智能体从自身经验中学习而诞生。
例如,随着 Genie 2 等基础世界模型的最新发展,我们可以从单个图像生成无限的 3D 环境并允许智能体在丰富的环境中产生「经验流」,并根据其能力进行适应和发展。
Genie 2,谷歌提出的一个基础世界模型,能够生成无限多样、可操作、可游玩的 3D 环境,用于训练和评估具身智能体。只需一张提示图像,人类或 AI 智能体即可使用键盘和鼠标输入来游玩。
如果说一般智能体必须学习世界模型,而超人类智能需要从经验而非人类数据中学习,那么像 Genie 2 这样的基础世界模型或许就是体验时代的终极尺度法则。我们并不是在触及人类知识的上限,而是正在进入一个新阶段:AI 智能体的质量从根本上受限于它们能够模拟和探索的世界的保真度。
能够做最精准的梦,并从梦中学习最多的智能体,或许才是最聪明的。