AGI 通用人工智能模型：基础理论与实现路径

AI资讯 5个月前 charles

6.7K 0 5

智能的定义是指在特定环境中实现目标的能力，包括对自身状态和环境状态的推断，并根据这些推断作出适当的反应。生物智能，特别是人类智能，具有广泛适应不同任务和环境的能力。人类智能的独特性源于通过艺术、语言、信仰体系等文化手段构建和传递知识的能力，语言在其中扮演了关键角色。

尽管通用人工智能的想法充满吸引力，但要在机器中实现这种复杂性和泛化能力极为具有挑战性。当前大多数AI技术解决的是特定领域的问题，被称为“狭义AI”，如人脸识别、医学图像分割等。

近年来，基于变分自编码器（VAE）和生成对抗网络（GAN）的生成式AI技术在提升AI能力方面做出了巨大贡献，使得单一模型能够同时处理多种复杂任务。

更进一步的大规模预训练基础模型，如大型语言模型（LLM）、扩散模型（DM）、视觉语言模型（VLM）和视觉语言行动模型（VLA），能够处理开放领域的复杂问题，展示了接近人工通用智能的潜力。由于这些模型具备更广泛的任务处理能力，尤其是多模态大型语言模型的出现，推动了AGI的研究和实现，重新激发了对发展通用智能的兴趣。

语言作为生物系统中通用智能的基础

语言作为知识获取、表示和组织的媒介

研究表明，使用自然语言进行交流是学习现实世界一般知识最有效的方式之一[13]。虽然人类的感官和运动能力通常不优于其他高等动物，包括灵长类动物（，但人类的认知能力远超其他动物。人类认知能力相较于动物界其他成员（包括与人类最亲近的灵长类动物）的优势，主要归因于人类使用语言的能力。

语言在人的能力中扮演着核心角色，尤其是在人类对抽象概念的表示、解释和推理中。在人类社会中，语言的一个重要功能是促进新知识的获取和共享。通过语言——无论是文学、言语还是艺术——人类可以轻松地从他人那里学习，积累知识不仅通过观察或与世界的互动，而且还通过获取其他人类积累的知识。

此外，语言为表示和内化知识提供了一个概念框架[22]。已有研究表明，一组人使用的特定语言结构和词汇会影响他们对世界的推理和解释。事实上，语言差异（例如词汇上的差异）已被证明会影响不同语言群体成员如何记忆和描述他们的经历[25, 26, 27, 28]。在这方面，语言能够构造或重构认知[29]，因此影响个体如何理解和与世界互动[30, 31]。

语言作为认知信息处理的工具

除了创造抽象概念以表示和组织感知信息与知识外，语言在促进认知计算操作中也起着基础性作用。Lupyan认为，像词语这样的基本语言元素为其他认知组件构建意义提供了线索。因此，语言不仅仅是一组静态符号，用于指代现实世界的对象、现象和经验，它还作为一种工具来操作这些符号。

Clark特别描述了语言促进人类认知信息处理和推理的六种不同方式。研究表明，语言不仅促进了结晶智力（即与表示相关的认知机制），如经验/刺激的分类和记忆，还促进了流体智力的元素（即分析性问题解决能力），如感知和推理。此外，接触多种语言框架已被证明能够拓宽个体的视野，并以更细致的方式理解概念。由于语言在生物认知能力中的核心地位，语言被多次描述为“认知的接口”、“智能放大器”，而人类认知本身也被描述为语言增强的认知。

通用人工智能的概念

尽管文献中对AGI有不同的解释，但一般理解是，AGI 系统表现出广泛的智力能力，并能够执行高级认知任务，如感知——包括上下文理解和一定程度的自我意识，推理、规划以及在新情境中应用所学知识。AGI 系统是普遍强大的模型，可以在多个领域成功完成复杂多样的认知任务，而无需额外的训练。术语“人类级智能”通常被宽泛地用于指代展示通用智能的人工智能系统。

AGI 不应被理解为超级全知全能的机器。这样的假设能力水平被称为人工超级智能。实际的 AGI 系统是拥有关于世界的广泛但有限且在一定程度上不确定的知识的系统，但它足够强大和灵活，可以解决一系列需要传感器控制、感知、上下文理解、常识推理和分析推理能力的问题。这种人工通用智能的理解本质上不仅反映了在一次性嵌入或学习所有相关知识和技能的实际困难，还反映了这种方法的性能限制。此外，将人工通用智能概念化为在范围上有限但具有适应性、灵活性和可扩展性，与生物智能的本质和特性相一致，尤其是在人类等高等生物中。尽管文献中定义各异，但几乎对 AGI 的一些定义特征达成了共识。具体来说，一个典型 AGI 系统的最重要特征是：

它可以学习并灵活应用有限且不确定的知识来解决在完全不同情境下的广泛问题；
它的学习和行动是自主的，并且是目标驱动的；
它能在记忆中保留和积累相关信息，并在未来的任务中重用这些知识；
它能够理解上下文，并执行高级认知任务，如抽象推理和常识推理。

图 1：AGI 系统的一些最重要特征。这些特征赋予 AGI 系统广泛的认知能力，尽管模型的知识有限，并且为了节省能量和时间，可能需要在认知信息处理上采取捷径。

值得指出的是，AGI 本质上与强人工智能（Strong AI）不同。尽管 AGI 聚焦于开发具有广泛认知能力并能够解决真正非平凡问题的智能系统，但强人工智能旨在创造一种非常强大的智能，不仅在功能层面上模仿人类的认知能力，而且还具备真实的人类认知特性，如内在的心理状态和主观经验，包括意向性（欲望、希望、信仰、内在动机等）、道德、情感和自我意识，即具备意识和感知能力。对这一话题感兴趣的读者可以参考，以了解关于强人工智能概念的更多详细讨论，包括感知、意识以及人工智能系统的道德。

大模型与AGI

人类的大部分知识和技能是通过多种媒介获取和传递的，最显著的媒介包括语言和视觉媒介（阅读、听力、直接观察等）。类似地，多模态语言模型依赖于多种数据模态，具有为系统提供关于世界的通用、多维知识的巨大潜力。虽然单模态语言模型如 GPT-3 和 BERT 只能处理文本数据，但多模态大型语言模型能够自然地集成多种不同的数据模态，包括视觉、听觉、文本和空间信息，顺畅地生成更加丰富和全面的表示，从而应对认知任务。

这类似于生物智能依赖于复杂的多感官数据流。最先进的多模态大型语言模型的通用能力已经得到广泛验证，它们解决一系列复杂的认知问题的能力，传统上需要人类智能，毫无疑问。大型语言模型的显著成功重新定义了人工智能的可能性和范围。推动这一成功的主要因素是能够在多样化的多模态数据上构建和训练非常大的神经网络模型。

这些模型通常在来自广泛来源（例如在线出版物、书籍、新闻文章、社交媒体和来自网络的其他信息源）的通用数据上进行训练，能够捕捉复杂的概念，并且在几乎没有任务特定训练的情况下（少样本学习或零样本学习）更有效地泛化到新任务。

因此，复杂的认知密集型开放领域任务，如常识推理和分析推理、数学问题解决、行程规划或一般任务规划[77]以及开放词汇的问答，都能顺利完成。更重要的是，最先进的大型语言模型能够执行创意和艺术性工作，例如根据给定的标准（如作者风格、词语、情绪等）创作文章、短篇故事甚至完整小说。

图 2：大型语言模型与人类智能：重要机制使知识和认知能力能够灵活扩展。

AGI 模型特征

在实现通用智能的背景下，除了在大型多样化数据集上进行训练外，大型语言模型具有一些有趣的特征，使其知识和技能可以根据需要自然地扩展。这种扩展性，再加上它们已经非常广泛的通用知识，使得它们能够大幅度超越传统的深度学习模型，这些传统模型通常设计有狭窄的优化目标，并且在有限的、精心策划的环境数据集上进行训练。

虽然支撑大型语言模型扩展性的底层过程和机制与支持生物智能的机制有根本区别，但这些结果性质在许多方面反映了人类智能的多层次和多维特性。例如，预训练大型语言模型赋予它们足够强大且灵活的通用知识，能够应对广泛的常见问题，这些问题需要感知、上下文理解、常识推理和分析推理能力。在需要领域特定知识时，可以通过在特定领域数据集上进一步训练预训练的 LLM 来对通用知识进行微调，增加专门的知识。这种方法类似于人类专家在拥有通用或常识性知识的基础上，如何在某些狭窄领域（如工程、医学、法律或网页开发）获得专门的能力。

通常，还会利用先前的知识将内部表示与现实世界的概念联系起来。这一特征类似于生物智能是如何建立在先验知识上的，先验知识作为遗传信息被编码。此外，除了内化的知识和认知能力外，人类还经常依赖外部知识（例如通过咨询专家或查阅书籍）和工具（例如软件、机器等）来扩展自己的能力。类似地，最先进的语言模型可以利用工具和外部知识——通过检索增强生成（RAG）——来扩展它们的能力。

图 3：本研究中涵盖的每个基础 AGI 概念的本质和作用总结

实现 AGI 的基础原则概述

尽管最先进的大型语言模型非常强大，但它们仍然存在一些限制，这些限制制约了它们实现通用智能的能力。一般而言，模型对上下文的理解往往是表面的，它们的解决方案在许多情况下只是表面上类似于人类知识。问题在于，AI 系统，包括 LLMs，仍然只是数字化构造体，它们试图通过从大量数据中学习世界的普遍属性来模仿人类的知识和认知能力。这些知识通常局限于观察到的模式，但未能捕捉到行为背后的基本原理。

长期以来，人们认为，为了实现 AGI，机器必须模仿人类认知中的一些关键方面，这些方面使人类智能在处理复杂问题时既强大又高效、灵活且通用。人类认知过程的关键方面包括具身感知或简而言之，具身性，符号基础，因果推理，以及记忆。具身感知——即拥有主观体验和感知的能力——被认为是高等智能的基本特征。它是实现通用智能的必要能力，因为它提供了一种类似意识的能力和自主性，具体来说，它使得代理能够自我意识，从而将其决策和行动与更普遍的、内在的更高层次目标对齐。

具身感知还使代理能够识别他人的经验，这使得它们在决策和行为中能够具备道德和伦理性。生物智能的另一个关键原则是符号基础，它通过将抽象的认知表示与现实世界中的有意义的实体和概念连接起来，起到了与具身性互补的作用。

在 LLM 中，基础工作确保抽象的表示与现实世界中的特定概念相对应，并在其语义本质的上下文中被利用或操作。尽管人类认知中基础符号化过程的内部机制仍未完全理解，但已初步实现的一些人工智能系统的符号基础技术展现出了很多潜力，能够将 LLM 的知识与世界的知识对接。

对于AGI，另一个重要的组成部分是直觉物理学和直觉心理学，它们涉及推断现实世界中事件和交互的因果关系的能力。人类对直觉物理学的自然理解被认为是强大感知和因果推理能力的基础。同时，直觉心理学使得人类能够在无需专门学习其他生物的情况下，形成对它们的意图和可能行为的信念。通常在 LLM 中使用心智理论（ToM）技术，以促进其对直觉心理学的理解。最后，记忆使得学习到的知识和过去的经验能够随着时间的推移得以保存和积累。这种知识的延展和丰富促进了通用用途的能力。此外，通过记忆机制进行的自我反省和反思，为 LLM 提供了持续学习和适应的方式。每个这些概念的作用总结在图 3 中。

具身性的基本概念

现代的生物认知观念认为，人类神经系统中的认知过程深深根植于大脑、身体与外部环境的相互作用中。根据这种观点，大脑、身体和环境构成一个统一的系统，它们共同影响并塑造智能行为。神经可塑性是增强智能适应性行为的最重要认知现象之一，它也假定了心智、身体和环境之间的互动。在中，这三者被认为是有机体解决特定任务所需的基本认知资源。根据这种身心环境三位一体的理解，有人认为为了使AI系统成为真正的智能系统，它们像生物系统一样，必须能够以物理的方式与世界互动，并通过反馈学习这些物理互动的结果。根据这一假设，人工智能只有在具备物理身体并能对环境进行物理行动的能力时，才能实现与人类认知能力相当的通用智能。具身AI系统不同于传统的纯数字系统，它们有一个有形的物理表现，能够感知和处理感官信息，并与环境进行互动。

具身性作为通用智能的基础

具身性为内在的目标导向行为提供了基础。一个具身的人工智能系统必然具备行动能力[132, 133]，即它能够采取有意图的行动——这些行动是它希望执行的（例如，基于特定的目标和需求），并且完全由它控制。这种目标导向的行为是自主性的基本要求。此外，拥有丰富感知运动资源的AI系统，能够以无限的可能性探索和与环境互动，从而获得广泛的智能能力。这样的智能系统必然能够准确而稳健地感知世界及自身的状态，并且能够以有目的的方式对世界进行作用。它还必须能够无缝地适应复杂的现实世界动态。因此，虽然传统的智能方法产生的模型本质上是僵化和机械的，但具身智能则更为灵活和细腻，可以将客观的经验与主观的概念、价值观、文化规范和期望联系起来[134]。通过提供一种更为集成的与世界互动、学习和决策的方式，具身代理人更加稳健，能够处理复杂和多样的问题，从而支持它们的通用智能特质。

具身智能的关键方面

人工通用智能最重要的方面是完全自主的要求——即使在没有外部指令或控制信号的情况下，能够独立做出决策并采取适当的行动。实现具身通用智能涉及四个主要考虑因素。

目标意识：为了实现完全自主性，像生物系统一样，人工智能系统必须具有一个超越即时任务目标的宏观目标，所有其他目标，包括其他行为体给予的明确指令，必须服从这个宏观目标。这个目标必须是内在的，并引导成功完成由其他行为体触发的外部目标（例如，用户给出的指令、其他行为体的行动等）。

自我意识：由于身体是执行影响物理世界的行动的执行者，智能过程必须与身体的结构和能力相联系。也就是说，智能行为的适当性不仅取决于智能系统希望实现的目标，还取决于根据可用的手段来执行目标所需行动的最佳性。因此，具身智能代理必须意识到自己的能力和局限性。在人类中心的语境中，这种意识包括从更广泛的社会背景的角度理解自我，并将经验与价值观、文化规范和期望联系起来。这有助于实现社会智能。

情境意识：一个体的智能受到其所处特定情境的影响。智能行为通常是对环境中提出的特定需求或挑战的反应。因此，为了实现任何目标，了解世界的属性并预测目标行动的结果至关重要。此外，由于外部世界对不同行为体的行动有不同的反应，因此每个智能系统的智能必须以某种方式是独特的。这意味着AI系统的智能行为必须考虑到其特殊特征所引发的环境或其他对象的预期反应。在人类中，行为往往受到社会和文化因素的影响。同样，具身AI代理的行动必须反映其环境的社会、文化和人口现实。AI代理必须能够在尊重实际约束的同时实现目标，包括安全性[137]和与伦理及文化价值观的对齐。

深思熟虑的行动：行动是具身智能的核心，因为它们是影响世界和实现预期目标的主要手段。通过行动，代理可以主动探索世界，从而进一步改善感知并促进在动态环境中的学习和适应。智能具身代理必须整合机制，通过有目的的行动影响世界。

目标意识的基础及其在通用智能中的作用

人类行为通常是由超越即时任务目标的目标所引导的。这些高层目标是生物智能的重要方面。类似地，在机器中，智能与实现既定目标的能力密切相关。因此，为了在AI中实现真正的通用智能，需要这种高层次的目标导向行为。目标意识被认为是实现人工通用智能的关键能力，因为它决定了AI系统是否能够自主操作。具体而言，高层次目标提供内在的指导，确保在没有外部影响或指令的情况下，智能系统能够表现出有意义和有目的的行为。

目标导向的具身代理可以将即时决策和行动与有益的长期结果对齐。在这方面，目标导向行为促进了问题解决的开放性方法，允许智能代理利用许多可能的行动，而不局限于特定的行为选项。这种灵活性在那些行动的路径不立即显现或无法通过分析计算得出的情况中特别重要，或者问题定义不清晰，需要非线性、创造性的推理才能得出结果。特别是，它使得自主AI代理能够在社会中执行有益的行为，例如在交通事故发生时作出反应，同时仍保持其核心功能。例如，在图4中，展示了两位智能代理在交通事故中参与疏散和救助受害者的场景。

这些代理可能没有接受过这样的专门训练，也可能没有预料到这样的事件，但由于它们被更高层次的目标所驱动，这些目标与更广泛的社会价值观相一致，它们可以独立做出决策来协助此类情况。除了这种认知灵活性之外，具有目标意识能力的AI系统还能够更好地泛化学习，选择或优先考虑相关知识，并采取旨在实现特定结果的行动。

目标导向的行为在长期任务和延迟奖励的情境中尤其重要，即即时行动与代理当前的感官状态没有直接关联。在这种情况下，智能代理根据内在目标选择行动，而不是根据明确的指令。许多动物执行的智能任务涉及到延迟奖励。生物认知中的目标可以以不同的形式和不同的来源存在，包括由生物需求驱动的隐性目标（例如，生存、繁衍等）、特定任务的持久性或暂时性目标（任务目标），以及由其他人类给出的指令。

图4：在这个场景中，两个智能代理A和B在紧急情况下提供帮助。当被高层目标驱动且这些目标与人类的利益和价值观一致时，这些代理能够自发地执行善行。目标意识使得它们能够主动、自主并且在处理多个任务时不偏离其本质。

在LLM中实现目标意识的方法

通用的LLM已经展示了一定的目标导向行为。尽管如此，这些新能力仍然表明LLM在开箱即用时的目标意识有限。例如，Li Yu等人和Li Chuang等人对LLM目标意识能力的实验评估显示出较差的目标意识。为了解决这一不足，最近的一些研究尝试将LLM行为与明确指定的目标对齐。在LLM中引入目标意识的最简单方法之一是将高层目标以输入提示的形式提供给LLM，以引导基础模型。为了更内在地实现目标导向行为，有些方法专门在LLM框架中制定目标。

例如，Li等人使用了专门的目标规划代理，并结合工具增强的知识检索代理来处理长期任务中的目标意识。Liu等人将目标信息编码在知识图谱中，并利用它设计一个目标规划模块，引导LLM与人类的对话朝目标导向发展。类似地，Ni等人利用知识图谱实体中的常识关系作为目标，引导对话式LLM代理生成目标导向的响应。另一种常见方法是对LLM进行微调，使用已经根据预期目标整理的特定数据集。

不幸的是，这种方式训练的模型往往只关注短期目标。另一种增强长期目标意识的方法是通过模仿学习微调LLM，使用强化学习与人类反馈，或通过子模块或由其他LLM充当外部评估者提供反馈。先进的LLM可以利用内在的高级目标意识，使智能代理能够独立制定低级目标，并追求任务特定的目标，而无需明确的人工监督，如在EmbodiedGPT和CoTDiffusion中所提出的。通过这种方式，它们能够在执行具身动作时生成子目标，并根据变化的情境和目标调整决策和行动。

目标意识在智能代理中的应用范围

目标意识有助于人机协作。当基于LLM的智能虚拟代理或机器人意识到目标——无论是自己的目标还是它们与之合作的人类的目标时，它们可以将自己的行动与人类的意图更紧密地对齐，从而实现更加无缝和高效的合作。代理可以变得更加前瞻性，采取主动行动[156]，而不仅仅是响应用户的请求。对人类目标的意识还帮助LLM代理更好地澄清模糊的情况，并更准确地解释关于人类的观察。例如，具备更广泛目标知识的推荐系统型对话LLM代理，可以提供更好的、更量身定制的响应。此外，高层目标还可以为理解指令和其他人类输入提供上下文。

情境意识的主要方面

具身感知，即具身代理的情境意识，涉及两个主要方面：对环境的意识和对其他战略代理的意识。

(a) 对环境和一般背景的意识

具身人工智能研究中的最重要任务之一是增强代理的情境意识 —— 即使代理能够以一种让其与现实世界互动并朝着实现特定目标的方式理解世界的能力。在具身认知的背景下，感知不仅仅是对当前世界状态和正在发生的过程的理解，还包括对环境在近期和远期内如何变化的理解，这些变化是由各种因素引起的，最重要的是代理和/或其他代理的行为所产生的效果。对于人类而言，情境意识是通过学习和经验获得的知识、通过基因传递的本能和天生知识以及由其他人和智能系统实时提供的信息的结果。基于大型语言模型（LLM）的智能代理也具备类似的特征。例如，核心模型本身就是一个关于世界常识性知识的知识库。此外，关于世界的具体信息可以通过各种方式获得。

(b) 对用户和其他代理的意识

大多数现实世界的环境都是复杂的多代理环境，在这些环境中，代理的行为不仅受静态和无智能的非生命物体和变量的影响，还受其他代理的智能和有目的行为的影响，这些行为在某一时刻可能是合作性的，也可能是竞争性的。在这样的环境中，行为结果依赖于其他代理的目标、智力和整体能力。

然而，通常无法直接观察到其他代理的属性 —— 即访问其目标和策略。这些属性是通过在互动过程中观察代理的行为和反应来推测的。对它们行为的先验知识也可以被纳入LLM模型中。一些工作通过引入专门的认知模块，推断关于其他代理的各种属性，包括他们的信念、意图、知识水平和一般心态。Hypothetical Minds (HM) 通过观察其他代理的行为历史，并利用这些信息预测其策略，然后输出自然语言的高级描述，从而进一步改进模型（HM）自己的行为。

图5：EmbodiedGPT的简化表示[172]。该框架利用一个大规模的自我中心视角数据集EgoCOT，来教授代理各种具身技能，包括视频字幕生成、视觉问答、多轮对话、导航和物体操作等。它由四个集成组件构成：

（a）一个视觉转换器，用于编码观察到的视觉信息；

（b）一个自定义子模块，称为Embodied-Former，用于映射输入的文本和图像（即具身指令和视觉信息），并生成相关特征，供具身高层次规划和低层次控制任务使用；

（c）一个大型语言模型，用于执行与语言相关的任务（例如图像字幕生成、规划和具身问答）；

（d）一个所谓的策略网络，从Embodied-Former子模块学习到的特征生成低层次动作。这些动作使代理能够通过执行器与现实世界进行物理交互。链式思维方法用于从提示中生成与任务相关的目标。

实现具身LLM情境意识的方法

(a) 现实环境中的物理代理

实现LLM具身感知的最直接方法是设计和实现具身代理，形式为具备适当感知方式的机器人，然后将先进的语言理解能力与机器人的物理和感知机制集成在一起。具身通用代理必须同时执行多个任务：感知、规划、导航、物体操作、自然语言通信、与人类和其他AI代理的物理互动以及低层次控制任务。从理论上讲，通用具身代理可以在专门策划的具身数据集（如EgoExoLearn[184]、Holoassist[185]、EgoTracks[186]和EgoChoir[187]）上进行端到端训练。

像EmbodiedGPT[172]、PaLM-E[64]和AlanaVLM[188]这样的专用具身多模态模型，通常会在这些类型的多感官具身数据集上进行训练。这些数据通常包括包含人类在不同场景中执行多种动作的视频，这些动作通常与上下文相关的语言描述对齐。此外，数据集有时还会包含音频和其他感官信息。为了确保具身数据集尽可能真实和信息丰富，一些研究利用可穿戴传感器，如加速度计、惯性测量单元（IMUs）、全球导航卫星系统（GNSS）、头戴显示器（HMD）和陀螺仪，捕捉关于环境、物体、人类和活动的附加信息（例如位置、方向、姿势等）。因此，训练多模态模型的任务是学习这些多种感官信息类型的共同表示。虽然这种方法已展示出机器人和具身自主代理的强大能力，但收集这些数据集的成本极高且耗时。

由于从零开始开发和训练用于通用多感官具身机器人系统的语言模型往往困难且昂贵，大多数工作通常通过对预训练的多模态大型语言模型进行任务特定的数据集微调来实现。也就是说，具身人工智能的物理系统实现通常涉及将模型调整为处理特定任务和交互，例如导航、操作、人机对话等，这些任务与目标具身AI系统的物理能力和感官输入相关。

例如，Palm-E专为厨房环境设计。因此，它通常执行的任务是导航厨房环境、识别家庭物品、拾取和放置烹饪工具和其他物品，协助烹饪、清洁和上菜等日常任务。因此，这些方法通常是特定领域的，针对一组有限的情境。由于为具身任务策划足够大和多样的真实数据集非常困难，许多研究使用合成数据集训练大型多模态语言模型，或通过合成生成的自我中心数据增强真实数据集。已经提出了专门的框架来生成或注释合成的自我中心数据。

通常，具身AI需要处理的目标任务和具体交互（例如导航、操作、人机对话）是预定的，并选择或生成适合的数据集。虽然这种变通方法有效地缓解了特定具身任务的数据策划问题，但它仍然难以将这些模型扩展到一般性、开放式和长时间跨度的任务。这主要是因为当前的合成数据集与其真实 counterparts 一样，捕捉的是包含有限和局部信息的独立视频片段。这在多代理系统的处理上尤为困难，在这些系统中，多种因素在长时间跨度内相互作用。为了解决这个限制，一些新的方法提出了将多个专门化的具身模块结合起来，来执行特定任务。

然而，在实现AGI方面，这种方法仍然非常有限。首先，数据集通常是静态的，缺乏学习丰富表示和复杂技能的机会。由于这些数据集不是交互式的，代理只能被动地观察并将这些观察结果作为感官信号处理以执行对世界的操作。其次，使用这种静态数据集进行训练与在现实世界中的学习本质上不同，在现实世界中，代理的观察结果是它们自己大多是故意的行为的结果 —— 即代理通过与环境的互动控制它接收到的数据。一个有前景的变通方法是在虚拟世界中训练代理模型，这是一个更完整的仿真环境，然后将其转移到现实世界。

(b) 具身AI系统的模拟代理和虚拟环境

简化在现实世界中开发和训练具身代理的难度的一个有前景的方法，是在模拟的3D数字环境中创建并训练虚拟代理。这提供了一个低风险、快速且便宜的学习世界的方式。在模拟环境中，代理还可以通过人机交互界面[210, 130, 211]从人类那里学习。它们还可以通过观察或与其他代理互动来学习其他代理的经验[212, 213, 214]。这与人类在现实世界中的学习方式一致。共享的观察和知识极大地增强了智能代理的能力。

通过这种方法，在虚拟环境中学到的模型可以转移并微调，以适应现实世界中的代理。采用这种方法，复杂的具身代理可以在没有要求精心策划的数据集或事先了解代理自身的结构、感官方式和功能的情况下有效地训练。例如，"OpenAI Five"的Dota 2游戏就是一个成功的案例，其中多个代理通过与其他AI代理的合作与竞争来学习并执行任务，最终成为在某些挑战上超过人类玩家的表现。

尽管这种方法取得了一定的成功，但现有的虚拟环境仍然存在一些挑战，尤其是对于复杂多变的现实世界场景的训练。虚拟环境通常不能完美地模拟复杂的、细粒度的世界状态，例如多代理互动、物体交互的高动态性等，这些在复杂的现实世界任务中至关重要。此外，由于与现实世界的脱节，虚拟环境中的模型在转移到实际场景时会遇到挑战。这些挑战需要通过混合模拟方法来解决，包括使用现实世界数据来增强模拟环境的复杂性，进而提高模拟环境与现实世界的匹配度。

这部分讨论了如何实现具身人工智能的情境意识，主要方法包括通过具身机器人、虚拟环境中的模拟代理以及与多感官数据集结合，来训练和增强具身代理的感知能力和情境意识。

自我意识

自我意识是指人工智能系统理解自身本质的能力，包括其属性、能力、局限性、上下文以及与外部实体互动中的角色。身体的物理结构会影响生物系统或活体如何处理信息。身体的形状、大小和能力限制并赋予了某些能力和行动类型，这进而影响了实现这些能力所需的认知策略。生物体的神经系统自然地学习控制身体机制，如肌肉和四肢，以适应身体特有的方式。

这解释了为什么人类需要大量训练才能轻松使用假肢。具备自我意识的具身代理还能够理解其行为对其他代理（无论是人类还是人工智能代理）以及整体环境的影响。一个既具备自我意识又具备情境意识的人工智能代理被称为“情境化代理”。图6展示了情境化对于人工智能系统作出正确决策的重要性。

泛用型大型语言模型（LLMs）中的自我意识

许多研究者研究了大型语言模型（LLMs）中的自我意识，包括了解自己知识的边界、对决策和行动进行内省反思以及调整行为。基于初步证据，通常认为多模态LLMs具备自我意识作为一种涌现能力——这一能力是通过大量训练数据自然产生的。例如，Yin等人通过大量实证研究表明，最先进的LLMs自然具备一定程度的自我意识，能够知道自己不知道什么。其他一些研究也确认了这一能力。

实现LLMs中的自我意识

尽管当前最先进的LLMs（如GPT-4）开箱即用时仍然缺乏像人类认知那样的真正自我意识，但有多种技术可以帮助激发自我意识。例如，研究表明，上下文学习、人类参与的强化学习和微调可以在LLMs中达到一定程度的自我意识。实现自我意识的常见方法是通过比较生成的回答与已知事实或先前对话，评估模型输出中的不一致或错误。通过这种方式，可以明确提示模型其局限性。除了依赖人类探究和提示LLMs关于其知识或能力之外，最近的一种方法是将自我意识任务表述为一个直观的搜索问题，其中具身代理查询其基础LLM关于特定情况的世界知识。

与此相关的工作中，多种LLM代理可以通过相互探询或提问来协作，揭示彼此的能力和固有的弱点。近期的一些研究提出通过推断LLM模型的隐藏表示来识别其自我意识属性。SEAKR通过比较多个响应的连贯性得分，计算LLM前馈网络内部状态的潜在表示的所谓自我意识不确定性。Self-Controller[285]则结合了一个专门的子模块——状态反射器，用于存储状态信息以便评估。这些方法有可能扩展到具身LLM代理的更多相关属性的意识，使其能够意识到自己的物理结构、动作和反应机制，以及这些行为的结果和自身的物理局限性。具备自我意识的LLM能够识别出当其内部知识不足以解决问题时，并转向其他资源，例如检索增强生成。这一方法类似于人类在面对无法独立解决的问题时，借助额外资源来应对的方式。具身人工智能系统在自我和环境意识方面的有用属性，通过图8得到了更好的说明。

深思熟虑的行动

尽管大型语言模型（LLMs）主要是语言实体，但当它们具备具身性时——例如作为物理机器人、虚拟代理或其他交互式系统——它们可以在现实世界中或通过虚拟或模拟交互采取深思熟虑的行动。这种能力源于它们理解任务或目标导向对话的能力，能够制定逐步的计划以完成任务或实现目标，并根据预定的计划执行任务适当的行动。具身代理可以通过与环境的深思熟虑互动，发现新发现的可操作性和之前未知的物体属性。这使得它能够做出更有益、更具同理心和道德意识的决策或采取行动。

大多数具身LLM系统都包含专门的规划和行动子模块，用于处理行动执行和与外部实体的互动。这些专门的模块通常使用与代理设计和能力相关的行动原语表示。这些行动原语随后被编码为策略（即允许行为的规则），或编码为行动模板，描述如何应对各种场景。通过使用外部工具的能力，LLMs可以扩展其执行各种行动的潜力。

视觉-语言-行动模型（VLAs）是一类专门设计用于执行行动的多模态基础模型。它们通过端到端的训练联合学习视觉、语言和行动模态。因此，它们可以感知环境、解读指令、进行高级规划并合成低级行动以完成各种任务。VLAs常用于机器人应用，特别擅长执行如开放世界导航、物体操作、抓取、解读和响应复杂的传感运动信号（包括言语和非言语提示）等任务。最先进的Bi-VLA[302]、RT-2、Unified-IO 2、QUAR-VLA和3D-VLA等VLAs可以在开放域设置中执行各种复杂活动。

符号绑定

符号绑定的基本概念

符号绑定，或简称绑定，指的是AI系统将计算模型中抽象的概念内部表示与其在现实世界中的等价物联系起来的能力。基本形式的绑定问题本质上涉及指定一组基本符号，定义它们的语义内涵，并假设操作这些符号的规则。这些控制符号操作的规则本质上是纯粹的语法规则，与符号所分配的意义（即符号的现实世界物理解释）无关[95, 308]。符号本身是抽象的基本实体，被视为可以组合成复合符号的原子标记，以编码更高级的概念[309]。符号系统应在所有表示层次上都是语义可解释的。因此，符号系统是信息模式，它们提供了访问外部世界的途径。Newell和Simon假设，物理符号系统不仅是智能所必需的，而且是足够的。

人工智能和大型语言模型中的符号绑定方法受到了人脑如何处理和将传感运动信息与外部世界关联的启发。心理学家长期以来认为，人类大脑依赖于一种符号系统来表示和操作信息。根据这一观点，影响人类感知和行为的认知现象，包括视觉、语言、情感、思想、观点和信仰，都是由符号处理控制的。值得注意的是，大多数符号并不涉及世界的物理属性，而是与抽象概念相关。例如，像“快乐”、“创新”、“聪明”和“迷恋”这样的符号仅仅是描述高级现象的概念。然而，人类仍然能够轻松地将这些符号与其适当的语义上下文联系起来。例如，当展示给人们或甚至是动物的图片时，人类能够根据它们的情感状态正确分类。

图9：人类认知依赖于将抽象的心理表征或符号（例如，词语）与现实世界中的实体、概念和现象关联起来。符号绑定系统允许内部认知系统访问外部世界。通过这种方式，内部表征获得了在给定意义上不变的含义，因此可以在不同的上下文中识别参照物（即所指的对象或类别）。以此类推，具身人工认知旨在将抽象的计算表示与实际对象和概念连接起来，从而实现某种具体的解释。

图10：绑定机制通过将不同符号结合成更复杂的复合表示，允许智能系统以层次化的方式表示和操作认知信息。在（a）中，例如，符号“金属”、“木材”、“椅子”、“结构”都提供了描述高级概念“坐”的上下文。在（b）中，语义内容是“走”的活动。（c）和（d）是更复杂的场景，由几个层次的符号组成，但它们仍然表示非常简单的语义内容，如标签所示。

绑定作为数字世界与现实之间的桥梁

语言使用符号（数字、词汇概念等）来表示人类对世界上各种物体和概念的理解：它们的本质、属性、关系以及可以由代理执行的可能行为。目标是提供更有意义和丰富的现实世界上下文，以促进更好的理解，并通过建立抽象符号（在AI模型中捕获的）与它们试图表示的物理世界之间的正确关系，从而允许与外部环境互动。本质上，符号绑定旨在弥合人工智能与现实世界之间固有的语义差距。这使得AI系统能够“理解”来自环境的输入，从而增强其情境意识和任务适应行为。

人工智能中符号绑定的一般方法

经典的符号绑定技术利用显式表示，使用固定的规则和本体来描述涉及的抽象概念和物理实体之间的关系和属性。例如，基于变量绑定技术和逻辑规则的数学操作经常用于符号操作。这类方法的主要优势是模型的（提高的）透明度和可解释性。

然而，该方法具有高度限制性，因为它要求所有情况都需要提前预测并恰当地处理。此外，从固定的、结构化的符号表示转移到如感知和推理等高阶认知任务中也具有挑战性。另一个层次的困难是，如何明确和可靠地绑定与人类社会关系和互动相关的模糊概念，因为这些概念通常具有强烈的文化背景，并且缺乏一致的解释。在这些情境中，符号操作技术通常无法充分处理认知信息，因为高级规则通常无法捕捉上下文的细微差别，并且符号本身往往有不同的解释，导致不可预测或不一致的推理。

由于基于固定符号和逻辑规则的分析技术存在严重局限性，因此，概率图模型和知识图谱成为了更具可行性的替代方法，因为它们具有更大的灵活性、更好的表示能力和可扩展性。这些新的方法，即所谓的神经符号技术，将原始实体作为表示先验，但利用人工神经网络学习符号之间的关系和属性。这种方法已被证明是有效的，但也存在扩展性差的问题。另一种新方法是神经符号绑定，它通过神经网络的帮助隐式地学习抽象符号和现实世界之间的语义连接。也有提出通过数据端到端学习符号表示的方法，而不依赖于显式的原始符号。

大型语言模型中的绑定方法

我们将在以下小节中讨论大型语言模型中符号绑定的主要方法。表I中详细总结了这些方法。

使用知识图谱绑定大型语言模型

在大型语言模型中，捕捉各种实体之间的表达关系（在这种情况下，是抽象符号与现实世界实体之间的关系）的常见方法是使用知识图谱（KGs）。知识图谱将词语表示为图形或语义网络中的节点，这是一种树状结构。这些词语代表个体对象、对象类别、事件和概念。不同词语之间的关系通过连接节点的边来描述。通过这种机制，知识图谱可以存储大量与现实世界绑定的显式知识。

因此，知识图谱被提出用来减轻常见问题，如幻觉，并为大型语言模型内部化物理绑定的知识提供一种手段。这减少了对非常大训练数据的需求，从而节省了时间并降低了训练成本。此外，与纯神经网络架构不同，知识图谱中的结构化知识编码了显式关系，因此在语义上更有意义，更适合推理和规划等新兴任务。

虽然通过知识图谱增强的大型语言模型可以增强其推理能力，但手动构建知识图谱是一个复杂的任务。因此，具有广泛世界知识的大型语言模型也被提议用来构建或丰富知识图谱。因此，这两类方法——大型语言模型和知识图谱——可以以一种互相增强的方式进行整合，从而互相促进。这种能力为符号绑定提供了一个有前景的前景，因为知识图谱被纳入大型语言模型框架中以提高其性能，同时生成的语言模型有助于通过增加知识来扩展和完善知识图谱，甚至产生更好的输出。这可能反过来生成更好的图谱内容，依此类推。一些近期的研究已经在探索这种方法。

通过本体驱动的提示进行大型语言模型的绑定

提示技术已被用来引导大型语言模型生成更加细致、符合上下文的响应。这项技术利用用户提供的指令或特定示例（即输入-输出对）在推理阶段进行调整。这个过程不会影响学习到的模型参数，也避免了昂贵的重新训练或微调过程。这种适应形式被称为上下文学习，可以根据用户需求有效地将模型推理与现实世界上下文进行绑定和对齐。最近，一些研究尝试利用本体作为符号化的知识库，以自动化方式提供上下文相关的提示，指导模型如何有效地处理特定情况，而不是直接输入可读的指令作为提示。本体引擎是通过正式的事实、规则、实体、类别、属性和它们之间关系的规范构建的。作为手动构建符号系统（即本体）的替代方法，一些研究提出利用大型语言模型创建或增强本体。在特定上下文中，使用不同类型的操作从已建立的事实和规则中生成新知识。

通过嵌入进行端到端绑定

在大型语言模型中，符号绑定问题可以通过隐式建模学习到的概念的含义以及它们在高维向量空间中的关联来解决。在向量空间中，像词语和视觉概念这样的符号是根据它们经常出现的上下文以及它们与其他符号的关系进行编码的。研究人员已设计出技术，利用这种表示将学习到的嵌入与现实世界中的实际物体、感知经验、行为或概念联系起来。这些嵌入还可以建立与其他概念的语义关系。例如，短语“丰田陆地巡洋舰”可以与“汽车”、“交通工具”、“运输”等概念连接。此外，符号操作程序也可以利用底层神经网络的表达能力以端到端的方式进行学习。

虽然这一类技术比其他绑定方法更具可扩展性并且相对容易实现，但需要注意的是，这些方法在某些情况下可能无法产生精确的映射。也不常能确定哪些符号没有被正确绑定。因此，利用向量嵌入的绑定方法通常会面临可信度和缺乏可解释性的问题。

图11：可以通过积极探索世界并学习抽象数字符号所指代的实体的形式和含义来实现绑定。强化学习是一种通过互动学习这些符号的有效方式。图示由提供。

通过主动探索与环境互动进行绑定

符号绑定的一个重要方式是通过积极探索世界来寻找相关实体的意义。通过体现的方式促进大型语言模型代理的通用能力的方法已在第3节中详细讨论。从讨论中可以清楚地看出，体现作为知识获取工具的作用，源于其能够支持与世界的有意识行动或探索与互动。除了可以通过这些互动学习的认知技能外，（体现）机制还帮助大型语言模型代理通过与世界中的物体和现象的直接体验来学习抽象符号的意义。当前的研究通常采用强化学习技术，将语言结构、物理物体、抽象概念和行为直接联系起来。为了实现这一目标，代理首先学习将低级符号绑定到具体的体验中。反过来，高级概念可以基于这些低级符号构建并进行绑定。人类在环强化学习方法也被用于为高级概念提供更丰富的语义绑定。由于使用强化学习训练代理需要大量的试验，虚拟世界通常被用来模拟现实世界的行为。图11展示了这种方法的通用架构。

利用外部知识进行大型语言模型的绑定

除了上述讨论的显式符号绑定方法外，大型语言模型还可以利用来自不同来源的外部知识来提供“弱”绑定。例如，所谓的百科知识图谱可以表示从各种来源（包括像Wikipedia这样的百科全书和关系数据库挖掘的大量结构化知识。尽管这些方法可能不严格涉及通过语法或逻辑规则连接的抽象原始实体，但它们仍然在经典大型语言模型中提供了与纯隐式知识之间的桥梁，这些模型通过在大规模通用数据集上训练得到了。检索增强生成（RAG）是另一个用于将大型语言模型与外部知识绑定的常见技术。基本思想是利用来自外部来源的额外信息来增强现有的知识，以便进行绑定过程。RAG在需要将存储的通用知识与特定领域的知识结合的狭窄上下文中特别有用。RAG的另一种流行形式是领域工具增强，它使大型语言模型能够通过专门设计的应用程序编程接口（API）访问和使用外部工具和插件。

因果关系

人工智能与人类智能中的因果关系

因果关系描述了各种因素、现象或事件如何影响其他事件、物体或过程。因果学习最简单的形式是旨在确定两个变量之间的动态关系，其中一个变量（因）直接影响另一个变量（果）。在基础接地任务中，主要处理的是将原始符号（如词语）与其在物理世界中的有意义表示（即变量、现象、概念等）连接起来，而因果关系则专注于解释这些参数变化背后的机制和原因，以及它们如何影响世界中的各种结果。在机器学习和人工智能中，已知的因果关系可以由人类开发者明确编码。

因果推理——通过理解因果关系来解释事件的过程——使得 AI 系统能够推理（对复杂的现实现象做出准确的预测），例如结构对恶劣天气元素的抗性、气候变化、疾病传播、事故、人口增长、经济表现等。这种理解对于日常活动（如烹饪、洗衣和驾驶等）至关重要。

因果推理的另一个重要作用是提高对干扰的鲁棒性，并在潜在条件和内部机制或环境变化时保持正确的推理。因此，因果建模使得 AI 系统能够更好地泛化并将学到的知识转移到新的环境中。此外，关注因果关系的模型可以解释观察数据或数据固有的局限性和不足。例如，它们可以消除或减轻对抗样本的影响和偏差。

因果关系的基本原理

因果理解可以根据它们允许的因果推理能力的程度进行不同的分类。这些程度从基本的关联到假设场景的推理。最流行的分类框架是 Pearl 在中形式化的。它描述了一个三层层次结构，用于从观察或更具体地说，从数据中分类因果关系。这些层次分别是关联（第 1 层）、干预（第 2 层）和反事实（第 3 层），总结了每个因果层次处理的典型问题。根据这一框架，解决任何层次的推理问题，只有在拥有该层次或更高层次的信息时才能实现。最基本的因果推理层次，关联，涉及从观察中直接获得问题答案，通常是以观察数据中的统计关系的形式。干预，第二层因果推理，涉及估计改变一个变量（例如治疗选项）对目标变量（即特定结果，如恢复）的影响。此层次的因果信息使得能够正确预测特定行动的效果。

例如，10 牛顿的力作用在重卡车上不会引起任何可测量的运动。第三层，也是最高层，反事实推理，允许回答假设性问题或推断未观察到的结果。这包括回答“如果发生了这个，会怎么样？”类型的问题——也就是说，如果某些事件没有发生或以不同的方式发生，可能会发生什么。反事实推理使我们能够确定应操作哪个变量，以及操作的程度，以使目标变量达到某个期望的状态（获取期望的治疗结果）。解决该层次的智能问题需要使用关联性和干预性的信息。

图 12：Pearl提出的因果层次和每个层次能够处理的问题类型

在大型语言模型（LLMs）中建模因果关系的方法

学习因果关系（或因果建模）通常旨在解决两个问题：（1）因果发现——识别潜在的机制、它们的相关物理参数和支配系统运作的相互关系；（2）因果推断——基于对因果关系的预设假设，估算因果变量之间的相互影响。

因果建模可以是隐式学习因果关系，也可以是通过领域特定的因果机制和关系的先验知识进行显式表示。隐式因果学习方法依赖端到端的深度学习方法直接从数据中识别因果关系或应用该知识进行推断。我们将在接下来的小节中讨论建模因果关系的重要方法。以下是这些方法的比较，见表 II。

图 13：解释事件和观察结果或执行日常活动，如烹饪和驾驶，需要理解因果关系。例如，在烹饪中（a），需要理解体积、重量、沸腾等概念，以及火等实体的行为。同样，驾驶（b）需要理解速度、动量、惯性、碰撞等概念。

传统深度学习方法

在大规模通用数据上训练的多模态 LLM 显示了强大的建模因果关系的能力。这主要通过从大量训练数据中学习隐藏的模式实现。例如，LLM 可能能够推断出影响经济增长或通货膨胀的关键变量，并识别这些变量之间的因果联系，即使这些信息在训练数据中没有明确说明。

通过这种方式获得的知识受到以下限制：并非所有观察到的连接都是因果关系。实际上，许多现实世界现象表现出相关关系——即目标变量的变化通过巧合或无关的影响彼此跟随，但实际上并没有通过任何因果链条相互关联。在推理任务中，这种虚假的相关性可能导致不准确或错误的结论。

此外，由于它们能够通过发现训练数据中的隐藏模式来学习因果关系，LLM 还会在大量描述因果关系的文本上进行训练，包括数学关系、科学原理和定律等。在训练过程中，例如，模型可以获得有关因果关系的知识，允许它们处理高层次的因果推理任务——包括干预和反事实推理—例如，“缺乏体育锻炼会导致肥胖”。尽管看起来 LLM 能够强大地建模因果关系，研究者已表明，最先进的 LLM 实际上无法获得真正的因果推理能力，即使是在专门训练以使其具备因果能力的情况下，包括上下文学习和微调。

具体来说，单纯依赖数据训练的 LLM，在没有内在因果建模机制的情况下，并不具备对物理定律或支配现实世界行为的内在机制和原则的意识，它们的预测通常仅仅是基于已学到的相关性。这可能导致严重的错误。为了解决这一限制，研究人员通常需要依靠在特别策划的因果数据集上对模型进行微调以发现因果关系。然而，这种方法是一项繁琐且困难的任务，在复杂的现实世界环境中往往难以扩展。此外，这种方法通常需要许多简化假设，这有时会导致错误的因果关系。

神经符号方法

与主要学习统计依赖关系的深度学习方法不同，神经符号方法明确地将因果机制的先验知识纳入 LLM 模型中。实现这一目标的一种方式是利用知识图谱[331, 350]和其他结构化知识基础的因果表示与推理技术。由于这些模型自然编码了概念之间的关系，许多研究利用它们提供因果机制的结构化知识，LLM 然后将其融入信息生成过程。扩展 LLM 因果推理能力的最有效的神经符号方法之一是整合因果图模型，这是一类结构化知识技术，本质上具有因果性。基

本的方法是通过特殊的图表或图形形式正式表示因果假设。在表示中，图的节点表示因果变量，而边则指示变量之间存在的因果关系。通过评估多个变量的效应，可以确定这些因果假设是否有效。并且在这些假设成立的情况下，推导出描述关系的数学表达式。相反，这些方法允许研究人员证伪因果假设。其思路很简单：为了建立因果关系，需要隔离并引起其中一个可能因素的变化。如果存在因果关系，目标变量就会出现相应的变化。学到的潜在结构关系随后被整合到 LLM 神经网络的学习过程中。许多研究采用因果图模型，展示了这一方法的潜力。例如，Wang 等人提出了一

种名为因果关系增强（CRE）子模块的方法，利用结构因果模型（SCM）建模因果机制，并随后将其整合到 LMM 框架中。另一方面，Samarajeewa 等人[438]利用外部因果知识增强 LLM，以改善因果推理。作者认为，尽管 LLM 展现了强大的推理能力，但仍然需要来自结构化来源的额外因果知识，以充分推断因果关系。为此，他们使用 RAG 技术从外部知识源中恢复因果图，以增强 LLM 的因果推理能力。

由于上述图形方法建模因果机制的任务繁琐且耗时，一些新的方法已被提出，利用 LLM 本身构建因果图模型，进而增强 LLM。例如，许多近期的研究提议利用 LLM 自身所具备的广泛世界知识，包括因果关系的行为模式，来构建因果图。在这类工作中，LLM 通常作为因果关系的先验知识来源——即用来建立初始变量和依赖关系——或用来通过建议额外的因果变量来增强已知的因果关系。通常，LLM 帮助通过描述变量（即节点）和它们的因果关系（即边）来形成图的总体结构。通过这种方法，还可以与 LLM 交互并利用它的推理能力，通过提示来细化骨架图。

图 14：与 AI 系统不同，人类天然地具有对因果关系的直觉理解，包括对物质和系统的物理属性如何影响其行为的粗略知识。例如，玩家可以大致估算需要多少力和力的方向才能将球送到正确的位置。同样，守门员也能根据前锋踢球前的动作和姿势，大致推测出球的方向和速度。

物理信息世界模型

有一种假设认为，人类推断和推理因果事件的能力依赖于他们的世界模型。这个世界模型，或称金属模型，编码了世界中概念、现象和物体的因果抽象，并以保持明确但模糊的结构和行为规则的方式进行描述。基于这些抽象，人类在世界中具有有关物理交互的隐式、快速判断能力—即各种实体的基本属性以及这些属性如何影响行为。这使得人类能够做出无意识但快速的判断，例如，他们能够准确判断物体如何运动、坠落或碰撞。

表 II：不同方法因果关系强度的比较

注：在此表中，w.r.t. 是相对于；Assoc. 是因果关系的关联层次；Interv. 是干预层次；Count. 是反事实层次。

与这一思想一致，许多近期的研究利用基于直观物理引擎的虚拟世界，将大型语言模型（LLM）的知识与真实世界的因果属性和行为结合起来。这些模型采用基于先验知识的正式数学模型，来表示世界的物理定律。因此，它们能够模拟现实世界现象的因果关系和效果，如空气动力学、重力、力、光照和加热等。与此类虚拟世界交互的基于LLM的AI代理，在训练过程中学习到可泛化的因果法则和行为（例如飞行、下落、燃烧、变形、漂浮和破碎等）。借助心理学和人类学等领域的知识，也可以模拟人类行为以及社会互动。这使得对观察和互动进行“常识”推理成为可能。

这些内在关系使得代理能够轻松处理反事实问题。代理本身可以设计为具身虚拟模型，能够无缝地与模拟的因果世界进行交互。这类代理模型通常包含外部框架或子模块，利用准确的数学关系来建模描述代理自身属性和行为的物理定律。通过这种方式，具身代理（如机器人）能够预测自己行为的影响以及各种物理因素对自身的影响。

利用虚拟模型的因果建模方法具有许多优点。它们能够简化获取大量真实数据进行训练的复杂过程。更重要的是，关于物理交互的基础数学关系通常建立在严格的牛顿物理学、热力学基础上，或者根据所需的现实性级别，可能涉及粒子物理学和量子力学。因此，这类模型中编码的因果知识是精确的，通常没有任何模糊性，能够定义交互的精确结果。由于这种表现力和精确性，基于物理引擎的因果模型能够处理复杂现象，并且其一致性和准确性远超人类的直观理解。尽管如此，虚拟模型也存在一些局限性，限制了可以学习的技能的范围和复杂性。

这一研究方向的主要困难之一是，高度详细的大规模仿真通常需要巨大的计算能力。同时，建模如此精确的物理关系也是一项巨大的挑战。然而，最终AI系统的性能受到所使用模型质量和完整性的限制。仿真可能无法准确考虑模糊的概念或开发者未知的因素。例如，关于人类互动的仿真可能未能准确考虑文化、社会和情感因素。为了解决这些挑战，提出了一些方法来融入深度学习的知识，包括通过特殊的深度学习技术从数据中学习直观物理，或者通过强化学习与人类反馈学习交互策略。

另一个常见的局限性是，这些技术所建模的互动是刚性的，并严格按照编码的物理参数和规则进行操作。为了缓解这一缺点，一些研究提出了利用数据驱动的优化技术，在基于物理的模型中引入一定的变异性和随机性。

内存

生物系统与人工智能系统中的内存基本概念

记忆机制在生物学和人工智能系统中的作用与第二到第四节中的其他认知过程（如体现性、基础化和因果性）有根本不同。内存机制主要用于保存、巩固并随后提供通过这些其他过程获得的重要知识。内存机制不会产生关于世界的新知识，而是主要重新组织和结构化已经获得的知识。因此，内存在AGI中的主要作用是重构和组织已经获得的知识，以便进行高级认知任务和将来重复使用。新知识的产生通常是通过这一重组过程。内存有助于持续学习或终身学习，这是生物智能的一个重要特征。记忆还可以作为将先前的知识整合到AI系统中的手段。生活在同一物种中的生物通常共同占据一个生态位，并不断相互互动，主要以合作方式进行。

因此，它们的智能依赖于学习和维护有关共享行为特征的知识，这些特征支配着它们的互动。特别是人类，通常依赖共享的结构化知识，如规范、规则、信仰体系和习俗，这些知识使得人类能够在社会环境中无缝互动。除了记忆的信息外，人类和其他高等生物还具有内建的先天知识，这些知识编码在基因中，并从父母传给后代。为了实现类似的功能，AI方法通常通过知识图谱或本体论将与特定任务相关的结构化知识整合到内存中，以增强存储在内存中的已学知识。它们不仅包括关于世界的具体事实和对象特性，还包括世界的关系和一般规则。结合已学的知识，这使得对于新遇到的情况能够进行有效和有意义的推理。

除了存储和检索信息外，内存机制还可以作为一种手段，通过重新使用已计算的认知变量和解决方案来绕过昂贵的计算。例如，当人类第一次学习一项新任务（如驾驶）时，完成任务需要持续的注意力和有意识的努力。然而，在通过不断练习将所需技能固化到内存中后，学会的任务可以不费力地完成，无需过多注意。这一现象得到了心理学的有力支持，并且为此节省了有限的认知资源用于新技能的学习，并节省了能量。尤其是在需要分析推理的领域，如数学和复杂游戏，内存现象对心理参与型认知任务有特别的益处（有关详细信息，请参见[475, 476]）。内存还在元认知任务中起着关键作用，其中有关某一领域的现有知识有助于学习新技能。此外，像想象和心理意象等现象也展示了先前计算的重用，以提高效率。

实现LLM内存的一般方法

在LLM中实现内存的主要技术包括：

深度神经网络中的参数

注意力机制

显式内存

适当的多样性和变异性

外部内存（例如，通过RAG）

作为模型参数的内存

经典的深度学习方法将与任务相关的知识存储为模型参数。诸如微调和上下文学习等技术通过修改这些已学的参数来融入新知识，而不是要求信息存储在独立的显式内存中。这通常会改变模型参数，并不可避免地导致重要信息的丧失，这一现象通常被称为灾难性遗忘。一种常见的解决方法是在微调过程中冻结某些模型参数，以确保仅修改需要改变的知识。更近的技术包括弹性权重整合（EWC）、无监督重播[484]和对抗性神经剪枝。通过知识编辑技术，也可以直接修改已学的知识，而不是通过微调方法重新训练模型。

注意力机制

另一种在LLM或神经网络中获得内存的方法是利用注意力机制，暂时保存并处理来自过去输入序列的信息。虽然大多数现代LLM基于transformer架构，但早期的语言模型采用了各种递归架构，包括递归神经网络（RNN）、长短时记忆（LSTM）、门控递归单元（GRU），这些架构通过隐藏状态显式地捕获并保留前期输入的片段，并使用注意力机制。实际上，这种注意力机制提供了短期内存，使得模型能够“记住”最近的序列，或者更技术地说，保持给定序列中的上下文。然而，在这种情况下，内存的容量非常有限。一些工作将LLM的上下文窗口视为内存，其中包含的提示信息被当作状态、任务或目标描述。这些信息被当作工作记忆。上下文窗口中的信息也可以是自然语言中的高层次概念，如对象或环境属性、任务目标、期望的技能或代理本身的属性。由于LLM上下文窗口的内存容量有限，这种内存机制可以处理的信息量非常小。此外，最近的工作（例如[495, 496, 497]）表明，模型通常对上下文窗口的开头和结尾部分有偏好，优先处理这些部分，而忽略中间部分。因此，极长的上下文可能会导致大量信息（窗口两端以外的部分）未被记住，形成所谓的“遗失在中间”问题[497]。由于这些限制，显式内存被提出作为一种可行的解决方案，允许大型知识存储以实现通用代理的几乎无限的内存容量。

显式内存

为了解决上述内存技术的缺陷，已提出了一些方法，允许选择性地存储持久的、任务相关的信息以供以后使用。特别是，领域特定知识可以作为先验知识显式存储在内存中，以增强LLM学习到的广泛通用知识。通过与环境互动的过程中，代理的学习经验（即过去的决策、行动或尝试的行动以及来自环境的反馈）也可以显式存储在内存中。这种内存系统的核心在于通过与环境的交互，随着时间的推移采样和积累有用的经验。

关系数据库是传统信息密集型任务中最常见的存储类型。存储的信息可以通过顺序查询语言（SQL）查询轻松检索。这种方法还允许将信息存储在外部数据库服务器上，并在需要时检索。由于传统关系数据库的数据格式通常不是为LLM的直接使用而设计的，一种常见的解决方法是利用结构化数据库进行知识存储。向量数据库在这一过程中非常有用。这种内存系统可以将特定的事实、概念定义和实体关系以知识图谱的形式存储，LLM可以查询这些图谱来帮助推理。基于向量数据库的内存机制不仅支持快速检索，还允许在特征级别（即特征向量空间）进行复杂和精细的操作。此外，这种表示方法使得可以使用在训练阶段获得的学习操作，而不依赖于预定义的分析程序来操作存储的信息。

通过RAG的外部内存

在人类与其他动物的通用能力方面，一个关键的优势是人类能够使用外部知识资源和工具来增强或扩展其能力（例如，通过阅读手册、书籍或通过浏览互联网来获取某一任务所需的信息）。这减轻了将所有必要知识存储在内部的需求。受到这一启发，近年来的工作尝试使LLM能够访问和利用外部资源，从而扩展它们可以执行的任务范围。这也有助于克服由于内存和处理能力不足所带来的固有限制。例如，使用检索增强生成方法（RAG）[364, 514, 515, 516]，模型可以查询外部知识库，以检索额外信息当它们在本地找不到所需的知识时。来自外部来源的信息可以直接处理并利用，或者可以存储在本地内存中以供后续使用。大量的知识可以存储很长时间，因为可以存储的信息量不依赖于代理的内存容量。此外，还可以利用已经

获得的所有存储知识来更新本地内存，进而增加知识的准确性。

陈述性记忆

陈述性记忆在生物学认知中也被称为显式记忆，因为其内容可以被有意识地提问和回忆。在人工智能的背景下，陈述性记忆涉及有关特定事实的知识，这些知识可以被显式地表示和检索。陈述性记忆进一步分为语义记忆和情节记忆。

语义记忆

语义记忆保存的是一般性知识，这些知识不依赖于特定的上下文或代理的“个人”或独特的经验。语义记忆中编码的知识包括事实、公式、一般规则和定律、定义，以及单词和符号及其含义。语义记忆侧重于关于世界的高级概念性知识，以及如何通过符号（例如单词）、图形和语言（音频）的方式来表达这些知识。除了关于世界的事实外，语义记忆还允许一般规则和抽象原则的保存，以供后续使用。这些规则在认知信息处理中被用来操作新信息。在这方面，它们充当了一个推理框架，用于解释世界以及获取和评估新知识。

在大型语言模型（LLM）中，语义知识自然地在训练过程中得到捕获。在训练过程中，多模态语言模型通过基于训练数据中的统计模式，学习将单词、短语、图像、符号和概念关联起来。这个过程使得LLM能够构建丰富的内在通用知识表示，这些知识在长期记忆中得以保存，并在未来检索，以支持认知任务。凭借这些知识，通用LLM在推理任务中表现出色，并能回答需要事实信息的问题。例如，“加利福尼亚州最大的城市是哪个？”或“1公里等于多少英尺？”这样的提问，这些模型都能轻松处理。它们也擅长从数据中提取一般规则，并将其应用于新任务。

这种能力是LLM在常识推理和分析推理方面的基础。语义记忆还可以通过以结构化形式编码的先验知识来实现，例如知识图谱和因果图模型，可以作为LLM中的长期记忆。这些LLM中的结构化知识子模块能够以持久的方式存储事实、规则、概念和关系，从而使得LLM在需要时可以检索有用的信息。诸如AriGraph 、HippoRAG 和KG-Agen等工作特别使用结构化知识形式作为长期记忆。这些专门的表示框架特别能模拟各种实体的复杂结构及其相互关系，这是语义记忆中所要捕获的信息 [468]。在这种表示中，高级概念、它们的属性和关系被显式连接。

情节记忆

情节记忆保存有关重要事件、经验和相关上下文信息—— 即关于事件的时间、地点、背景或情境信息，以及事件的性质（例如，视觉图像、特定特征，包括味觉、触觉、声音和其他伴随事件的感官信号）。这些信息以时间顺序排列的经历的形式表示。这些信息不是加法性的，即，不同的事件记录是分开的，经历不会被概括或积累。在大型语言模型中的情节记忆机制可以通过几种方式实现，包括利用底层Transformer架构的注意力机制来捕捉情节知识；将相关的情节信息从LLM的上下文窗口转移到长期存储；或者通过对包含显式情节知识的特定数据集微调通用的预训练LLM框架，从而将情节信息保存到长期记忆并在未来召回。

(b) 程序性记忆

程序性记忆涉及关于执行复杂活动所需的逻辑步骤的知识的获取、存储和召回。这通常涉及运动技能，例如自动驾驶、烹饪和机器人操作。在大型语言模型的领域，程序性记忆促进了诸如活动规划、执行指令、推理和执行物理动作等认知功能。这些高级认知能力是LLM的显著能力之一。

在生物认知系统中，程序性记忆的一个主要方面涉及潜意识过程 —— 即在代理的意识之外发生的过程，例如启动效应 [563] 和经典条件反射。任务是学习并存储刺激与相应反应之间的自然关联，从而使得在正确的情境中自动触发适当的反应。这避免了进行复杂认知计算的需求，从而加快了反应时间。潜意识现象以及它们如何与显式表示（如事实）相互作用仍然是理解不足的。因此，在人工智能领域，这些技术的实现尚显不足。

大型语言模型中的程序性知识通常是隐式学习的，并存储在长期记忆中。这是通过LLM学习训练数据中的行动、结构和关系序列来实现的。在预训练阶段之后，LLM可以进一步在任务特定的传感器运动数据集上进行微调。微调过程旨在使模型能够内化（即从头学习）或细化（即对稍有不同的任务进行调整）生成和遵循解决给定问题所需的明确执行计划。尽管最先进的模型在程序性任务上表现出色，但通常更有效的方式是借助神经符号技术显式地编码特定技能。这些符号方法有时被用来提供结构化的推理框架，供隐式学习的程序性知识用于解决特定的问题集。

基于体现性、基础性、因果性和记忆原则的通用人工智能（AGI）框架

在本节中，我们将发展一个统一的AGI概念框架，结合本文中讨论的各个概念。该框架实现了支持实现复杂、强大且通用智能的基本计算机制，基于本文第2至第5节讨论的原则。本文调查的这些看似孤立的概念——体现性、基础性、因果性和记忆——在促进人工通用智能方面，其功能是相互关联和互补的。体现性提供了与世界交互所需的通用结构和机制。这使得AI系统能够通过感知系统体验世界，并通过响应感官输入和目标，执行期望的动作来影响世界的状态。这些体现性的经验为基础性符号提供了有用的信号。

也就是说，体现性允许代理获取有意义的传感器-运动体验——通过实际感知和与世界的交互——这些体验用于将抽象的表示与代理的实际感知和交互进行基础性连接，而不是仅仅依赖于训练数据中输入词语的抽象语言关联。通过这种方式，体现性经验反过来使代理能够通过与世界的互动和反馈，直接观察并学习因果关系。此外，记忆机制提供了编码、存储和访问基础性符号、体现性经验和因果关系的手段，这些是通过训练AI代理过程中的学习获得的。

此外，记忆还作为一种手段，将已知的因果关系和基础性符号作为先验知识进行整合。如图16所示，从代理的观察和与环境的体现性交互中学习到的因果知识和符号关联，可以通过记忆中编码的结构化知识与已知的因果关系和基础性符号相结合，从而为稳健的感知、推理和其他认知任务提供更全面的知识。这些机制共同作用，形成了一个强大的框架，使得大型语言模型（LLM）代理能够更好地进行知识泛化。

图16：基于本文讨论原则的通用AGI系统的功能框图。概念模型包括：

（1）核心框架——体现性，它提供了与世界交互所需的物理本质和机制；

（2）记忆，由不同的记忆子系统组成——感官、工作和长期记忆，它们的作用之一是允许已学和先验知识随着时间的推移得以保存和积累；

（3）符号基础性子系统，它提供了一种将基础性模型中的抽象表示与世界中的实际实体连接的方式；

（4）因果学习机制，学习与现实世界中的实体相关的属性和物理法则。需要注意的是，符号基础性和因果学习机制结合了记忆中编码的先验知识和通过认知信息处理学习到的知识，以实现正确的结果。

讨论

大型语言模型在许多任务上已经超越了传统的深度学习方法。它们在许多非平凡的AI问题上取得了令人印象深刻的成果，包括推理、规划、多模态生成（即文本、图像、视频、语音等）、开放世界导航、编程、自然语言理解和开放领域问答。由于这些能力，包括谷歌、OpenAI、Meta、Nvidia、亚马逊、苹果和微软等科技巨头公司都投入了巨额资金和人力来开发通用的以及特定领域的通用人工智能系统。最先进的通用AI系统也越来越多地被融入到商业产品中，如搜索引擎、聊天机器人、通用软件、便携式导航设备、智能手机、自动驾驶汽车和扩展现实系统中。近年来，多模态语言模型的成功极大地提高了机器在可预见的未来实现普遍智能的期望。事实上，一些研究人员认为，随着最先进的大型语言模型（LLM）的发展，通用人工智能已经可以实现。

尽管多模态LLM表现出巨大的潜力，但目前这些说法仍然是过早且夸大的。实现人工通用智能的可能途径是继续扩大大型通用机器学习算法的规模，并用越来越多的数据训练它们，以便处理多个领域中的复杂问题。考虑到最先进的神经网络框架，尤其是多模态大型语言模型已经取得的令人印象深刻的成果，这种方法在原则上似乎是可能的。

大模型的规模和庞大的多样化训练数据使得这些模型能够捕捉到适用于多个问题领域和应用场景的通用而复杂的概念，以及语义丰富的模式和关联。然而，经验表明，这种方法存在严重的局限性：许多专业领域的数据有限，神经网络往往只能学习数据关联，难以区分表面关联和因果关系。此外，正如最先进的大型语言模型所展示的，这些智能系统在知识的复杂性和在未知情境下灵活应用学习的能力上仍显得非常肤浅。因此，仅仅扩大LLM的规模并在更大的数据集上进行训练，可能不足以实现人类水平的智能。

大型语言模型仍然无法匹敌生物认知系统的稳健性、灵活性、效率以及总体的通用能力。与大型语言模型和AI系统相比，人类智能是极其丰富且多方面的。人类能够在没有直接测量的情况下，对物体的属性和行为作出准确判断。为了弥补这一缺陷，许多研究旨在通过设计生物智能的特定属性，来实现强大、稳健、数据高效、灵活适应的通用智能。特别是本文讨论的这些概念——体现性、基础性、因果性和记忆——将对实现显著的里程碑非常有帮助。尽管这些原则很有前景，但实现这些概念的每种方法仍有很大的改进空间。还需要强调的是，这些概念只能解决与实现通用人类水平智能相关的特定认知问题。然而，要促进通用智能，更有益的做法是将这些原则和方法以更加集成的方式纳入到单一的认知框架中。

因此，尽管体现性、符号基础性、因果性和记忆的概念早已被认为是人工通用智能的基础，并且广泛应用于推动LLM的最先进发展，但向AGI的持续进步将需要为设计实现所有这些原则的LLM提供根本性的新范式。这种设计理念将涉及将深度学习模型与神经符号技术相结合，利用先验信息编码现实世界的约束和物理属性。这种方法要求将这些核心概念视为一组相互关联且互补的原语，共同建模智能代理及其环境。然后，认知过程就简化为接口的各种子组件，并处理和交换它们之间的信息。处理过的认知信息将被用来理解特定事件、与世界互动、解释观察结果并解释反事实。在这种背景下，处理训练数据集中不存在或稀疏表示的情境将是极其重要的。

另一个关于AGI研究的重大挑战是，尽管实现人类水平的通用智能似乎是一个明确的目标，但评估和确定何时达到这一目标是一个具有挑战性的问题。特别是，虽然AI系统和人类的智能比较通常基于特定任务集上的表现，但人类和机器智能在设计和功能上的根本差异也存在。这些差异反映在它们各自的优势和劣势上。例如，生物智能是通过进化发展出来的，目的是为了代理自身（或其后代）在动态和敌对的环境中生存。

人类智能本质上是模糊的、广泛的、可适应的，并且包括诸如情感、社会和创造性推理等主观方面。相比之下，机器智能通常是为了解决特定问题集而设计和优化的——无论这些问题多么通用。由于它们在本质、设计目标和具体能力上的重要差异，比较可能导致误导性的结果。因此，即使AI代理在复杂任务上表现出与人类相当的通用性能，仍然很难将其归类为通用智能。此外，作为一个抽象概念，智能是一个包含多个维度的连续度量，且以客观标准衡量它是不可行的。因此，评估最先进的LLM是否接近实现AGI也并不现实。

尽管如此，随着智能代理能力的不断提高，当我们不再能区分AI代理和人类在各种复杂（虚拟或现实世界）环境中的决策和行为时，我们可以安全地得出结论，认为我们已经达到了某种程度的人类水平的通用智能，即使它在某种程度上是有限的。目前，最先进的LLM代理在复杂的人类中心环境

中执行复杂任务的能力日益增强，并且能够在特定的开放世界环境中担任领导角色，并提供专业的指导，随着代理与人类的互动，信任以及专业、社会和情感关系可能会发展。这些代理越来越表现出人类的基本特征和能力，包括理解人类情感状态的能力；共情；对意外和随机事件作出反应；帮助和请求帮助；与人类及其他代理合作共同解决问题；以及与人类进行有意义的对话。在这个阶段，我们离某种形式的通用智能并不遥远。