智能的定义是指在特定环境中实现目标的能力,包括对自身状态和环境状态的推断,并根据这些推断作出适当的反应。生物智能,特别是人类智能,具有广泛适应不同任务和环境的能力。人类智能的独特性源于通过艺术、语言、信仰体系等文化手段构建和传递知识的能力,语言在其中扮演了关键角色。
尽管通用人工智能的想法充满吸引力,但要在机器中实现这种复杂性和泛化能力极为具有挑战性。当前大多数AI技术解决的是特定领域的问题,被称为“狭义AI”,如人脸识别、医学图像分割等。
近年来,基于变分自编码器(VAE)和生成对抗网络(GAN)的生成式AI技术在提升AI能力方面做出了巨大贡献,使得单一模型能够同时处理多种复杂任务。
更进一步的大规模预训练基础模型,如大型语言模型(LLM)、扩散模型(DM)、视觉语言模型(VLM)和视觉语言行动模型(VLA),能够处理开放领域的复杂问题,展示了接近人工通用智能的潜力。由于这些模型具备更广泛的任务处理能力,尤其是多模态大型语言模型的出现,推动了AGI的研究和实现,重新激发了对发展通用智能的兴趣。
通用人工智能的概念
尽管文献中对AGI有不同的解释,但一般理解是,AGI 系统表现出广泛的智力能力,并能够执行高级认知任务,如感知——包括上下文理解和一定程度的自我意识,推理、规划以及在新情境中应用所学知识。AGI 系统是普遍强大的模型,可以在多个领域成功完成复杂多样的认知任务,而无需额外的训练。术语“人类级智能”通常被宽泛地用于指代展示通用智能的人工智能系统。
AGI 不应被理解为超级全知全能的机器。这样的假设能力水平被称为人工超级智能。实际的 AGI 系统是拥有关于世界的广泛但有限且在一定程度上不确定的知识的系统,但它足够强大和灵活,可以解决一系列需要传感器控制、感知、上下文理解、常识推理和分析推理能力的问题。这种人工通用智能的理解本质上不仅反映了在一次性嵌入或学习所有相关知识和技能的实际困难,还反映了这种方法的性能限制。此外,将人工通用智能概念化为在范围上有限但具有适应性、灵活性和可扩展性,与生物智能的本质和特性相一致,尤其是在人类等高等生物中。尽管文献中定义各异,但几乎对 AGI 的一些定义特征达成了共识。具体来说,一个典型 AGI 系统的最重要特征是:
-
它可以学习并灵活应用有限且不确定的知识来解决在完全不同情境下的广泛问题; -
它的学习和行动是自主的,并且是目标驱动的; -
它能在记忆中保留和积累相关信息,并在未来的任务中重用这些知识; -
它能够理解上下文,并执行高级认知任务,如抽象推理和常识推理。
图 1:AGI 系统的一些最重要特征。这些特征赋予 AGI 系统广泛的认知能力,尽管模型的知识有限,并且为了节省能量和时间,可能需要在认知信息处理上采取捷径。
值得指出的是,AGI 本质上与强人工智能(Strong AI)不同。尽管 AGI 聚焦于开发具有广泛认知能力并能够解决真正非平凡问题的智能系统,但强人工智能旨在创造一种非常强大的智能,不仅在功能层面上模仿人类的认知能力,而且还具备真实的人类认知特性,如内在的心理状态和主观经验,包括意向性(欲望、希望、信仰、内在动机等)、道德、情感和自我意识,即具备意识和感知能力。对这一话题感兴趣的读者可以参考,以了解关于强人工智能概念的更多详细讨论,包括感知、意识以及人工智能系统的道德。




自我意识
自我意识是指人工智能系统理解自身本质的能力,包括其属性、能力、局限性、上下文以及与外部实体互动中的角色。身体的物理结构会影响生物系统或活体如何处理信息。身体的形状、大小和能力限制并赋予了某些能力和行动类型,这进而影响了实现这些能力所需的认知策略。生物体的神经系统自然地学习控制身体机制,如肌肉和四肢,以适应身体特有的方式。
这解释了为什么人类需要大量训练才能轻松使用假肢。具备自我意识的具身代理还能够理解其行为对其他代理(无论是人类还是人工智能代理)以及整体环境的影响。一个既具备自我意识又具备情境意识的人工智能代理被称为“情境化代理”。图6展示了情境化对于人工智能系统作出正确决策的重要性。
泛用型大型语言模型(LLMs)中的自我意识
许多研究者研究了大型语言模型(LLMs)中的自我意识,包括了解自己知识的边界、对决策和行动进行内省反思以及调整行为。基于初步证据,通常认为多模态LLMs具备自我意识作为一种涌现能力——这一能力是通过大量训练数据自然产生的。例如,Yin等人通过大量实证研究表明,最先进的LLMs自然具备一定程度的自我意识,能够知道自己不知道什么。其他一些研究也确认了这一能力。
实现LLMs中的自我意识
尽管当前最先进的LLMs(如GPT-4)开箱即用时仍然缺乏像人类认知那样的真正自我意识,但有多种技术可以帮助激发自我意识。例如,研究表明,上下文学习、人类参与的强化学习和微调可以在LLMs中达到一定程度的自我意识。实现自我意识的常见方法是通过比较生成的回答与已知事实或先前对话,评估模型输出中的不一致或错误。通过这种方式,可以明确提示模型其局限性。除了依赖人类探究和提示LLMs关于其知识或能力之外,最近的一种方法是将自我意识任务表述为一个直观的搜索问题,其中具身代理查询其基础LLM关于特定情况的世界知识。
与此相关的工作中,多种LLM代理可以通过相互探询或提问来协作,揭示彼此的能力和固有的弱点。近期的一些研究提出通过推断LLM模型的隐藏表示来识别其自我意识属性。SEAKR通过比较多个响应的连贯性得分,计算LLM前馈网络内部状态的潜在表示的所谓自我意识不确定性。Self-Controller[285]则结合了一个专门的子模块——状态反射器,用于存储状态信息以便评估。这些方法有可能扩展到具身LLM代理的更多相关属性的意识,使其能够意识到自己的物理结构、动作和反应机制,以及这些行为的结果和自身的物理局限性。具备自我意识的LLM能够识别出当其内部知识不足以解决问题时,并转向其他资源,例如检索增强生成。这一方法类似于人类在面对无法独立解决的问题时,借助额外资源来应对的方式。具身人工智能系统在自我和环境意识方面的有用属性,通过图8得到了更好的说明。
深思熟虑的行动
尽管大型语言模型(LLMs)主要是语言实体,但当它们具备具身性时——例如作为物理机器人、虚拟代理或其他交互式系统——它们可以在现实世界中或通过虚拟或模拟交互采取深思熟虑的行动。这种能力源于它们理解任务或目标导向对话的能力,能够制定逐步的计划以完成任务或实现目标,并根据预定的计划执行任务适当的行动。具身代理可以通过与环境的深思熟虑互动,发现新发现的可操作性和之前未知的物体属性。这使得它能够做出更有益、更具同理心和道德意识的决策或采取行动。
大多数具身LLM系统都包含专门的规划和行动子模块,用于处理行动执行和与外部实体的互动。这些专门的模块通常使用与代理设计和能力相关的行动原语表示。这些行动原语随后被编码为策略(即允许行为的规则),或编码为行动模板,描述如何应对各种场景。通过使用外部工具的能力,LLMs可以扩展其执行各种行动的潜力。
视觉-语言-行动模型(VLAs)是一类专门设计用于执行行动的多模态基础模型。它们通过端到端的训练联合学习视觉、语言和行动模态。因此,它们可以感知环境、解读指令、进行高级规划并合成低级行动以完成各种任务。VLAs常用于机器人应用,特别擅长执行如开放世界导航、物体操作、抓取、解读和响应复杂的传感运动信号(包括言语和非言语提示)等任务。最先进的Bi-VLA[302]、RT-2、Unified-IO 2、QUAR-VLA和3D-VLA等VLAs可以在开放域设置中执行各种复杂活动。
符号绑定
符号绑定的基本概念
符号绑定,或简称绑定,指的是AI系统将计算模型中抽象的概念内部表示与其在现实世界中的等价物联系起来的能力。基本形式的绑定问题本质上涉及指定一组基本符号,定义它们的语义内涵,并假设操作这些符号的规则。这些控制符号操作的规则本质上是纯粹的语法规则,与符号所分配的意义(即符号的现实世界物理解释)无关[95, 308]。符号本身是抽象的基本实体,被视为可以组合成复合符号的原子标记,以编码更高级的概念[309]。符号系统应在所有表示层次上都是语义可解释的。因此,符号系统是信息模式,它们提供了访问外部世界的途径。Newell和Simon假设,物理符号系统不仅是智能所必需的,而且是足够的。
人工智能和大型语言模型中的符号绑定方法受到了人脑如何处理和将传感运动信息与外部世界关联的启发。心理学家长期以来认为,人类大脑依赖于一种符号系统来表示和操作信息。根据这一观点,影响人类感知和行为的认知现象,包括视觉、语言、情感、思想、观点和信仰,都是由符号处理控制的。值得注意的是,大多数符号并不涉及世界的物理属性,而是与抽象概念相关。例如,像“快乐”、“创新”、“聪明”和“迷恋”这样的符号仅仅是描述高级现象的概念。然而,人类仍然能够轻松地将这些符号与其适当的语义上下文联系起来。例如,当展示给人们或甚至是动物的图片时,人类能够根据它们的情感状态正确分类。
图9:人类认知依赖于将抽象的心理表征或符号(例如,词语)与现实世界中的实体、概念和现象关联起来。符号绑定系统允许内部认知系统访问外部世界。通过这种方式,内部表征获得了在给定意义上不变的含义,因此可以在不同的上下文中识别参照物(即所指的对象或类别)。以此类推,具身人工认知旨在将抽象的计算表示与实际对象和概念连接起来,从而实现某种具体的解释。
图10:绑定机制通过将不同符号结合成更复杂的复合表示,允许智能系统以层次化的方式表示和操作认知信息。在(a)中,例如,符号“金属”、“木材”、“椅子”、“结构”都提供了描述高级概念“坐”的上下文。在(b)中,语义内容是“走”的活动。(c)和(d)是更复杂的场景,由几个层次的符号组成,但它们仍然表示非常简单的语义内容,如标签所示。
绑定作为数字世界与现实之间的桥梁
语言使用符号(数字、词汇概念等)来表示人类对世界上各种物体和概念的理解:它们的本质、属性、关系以及可以由代理执行的可能行为。目标是提供更有意义和丰富的现实世界上下文,以促进更好的理解,并通过建立抽象符号(在AI模型中捕获的)与它们试图表示的物理世界之间的正确关系,从而允许与外部环境互动。本质上,符号绑定旨在弥合人工智能与现实世界之间固有的语义差距。这使得AI系统能够“理解”来自环境的输入,从而增强其情境意识和任务适应行为。
人工智能中符号绑定的一般方法
经典的符号绑定技术利用显式表示,使用固定的规则和本体来描述涉及的抽象概念和物理实体之间的关系和属性。例如,基于变量绑定技术和逻辑规则的数学操作经常用于符号操作。这类方法的主要优势是模型的(提高的)透明度和可解释性。
然而,该方法具有高度限制性,因为它要求所有情况都需要提前预测并恰当地处理。此外,从固定的、结构化的符号表示转移到如感知和推理等高阶认知任务中也具有挑战性。另一个层次的困难是,如何明确和可靠地绑定与人类社会关系和互动相关的模糊概念,因为这些概念通常具有强烈的文化背景,并且缺乏一致的解释。在这些情境中,符号操作技术通常无法充分处理认知信息,因为高级规则通常无法捕捉上下文的细微差别,并且符号本身往往有不同的解释,导致不可预测或不一致的推理。
由于基于固定符号和逻辑规则的分析技术存在严重局限性,因此,概率图模型和知识图谱成为了更具可行性的替代方法,因为它们具有更大的灵活性、更好的表示能力和可扩展性。这些新的方法,即所谓的神经符号技术,将原始实体作为表示先验,但利用人工神经网络学习符号之间的关系和属性。这种方法已被证明是有效的,但也存在扩展性差的问题。另一种新方法是神经符号绑定,它通过神经网络的帮助隐式地学习抽象符号和现实世界之间的语义连接。也有提出通过数据端到端学习符号表示的方法,而不依赖于显式的原始符号。
大型语言模型中的绑定方法
我们将在以下小节中讨论大型语言模型中符号绑定的主要方法。表I中详细总结了这些方法。
使用知识图谱绑定大型语言模型
在大型语言模型中,捕捉各种实体之间的表达关系(在这种情况下,是抽象符号与现实世界实体之间的关系)的常见方法是使用知识图谱(KGs)。知识图谱将词语表示为图形或语义网络中的节点,这是一种树状结构。这些词语代表个体对象、对象类别、事件和概念。不同词语之间的关系通过连接节点的边来描述。通过这种机制,知识图谱可以存储大量与现实世界绑定的显式知识。
因此,知识图谱被提出用来减轻常见问题,如幻觉,并为大型语言模型内部化物理绑定的知识提供一种手段。这减少了对非常大训练数据的需求,从而节省了时间并降低了训练成本。此外,与纯神经网络架构不同,知识图谱中的结构化知识编码了显式关系,因此在语义上更有意义,更适合推理和规划等新兴任务。
虽然通过知识图谱增强的大型语言模型可以增强其推理能力,但手动构建知识图谱是一个复杂的任务。因此,具有广泛世界知识的大型语言模型也被提议用来构建或丰富知识图谱。因此,这两类方法——大型语言模型和知识图谱——可以以一种互相增强的方式进行整合,从而互相促进。这种能力为符号绑定提供了一个有前景的前景,因为知识图谱被纳入大型语言模型框架中以提高其性能,同时生成的语言模型有助于通过增加知识来扩展和完善知识图谱,甚至产生更好的输出。这可能反过来生成更好的图谱内容,依此类推。一些近期的研究已经在探索这种方法。
通过本体驱动的提示进行大型语言模型的绑定
提示技术已被用来引导大型语言模型生成更加细致、符合上下文的响应。这项技术利用用户提供的指令或特定示例(即输入-输出对)在推理阶段进行调整。这个过程不会影响学习到的模型参数,也避免了昂贵的重新训练或微调过程。这种适应形式被称为上下文学习,可以根据用户需求有效地将模型推理与现实世界上下文进行绑定和对齐。最近,一些研究尝试利用本体作为符号化的知识库,以自动化方式提供上下文相关的提示,指导模型如何有效地处理特定情况,而不是直接输入可读的指令作为提示。本体引擎是通过正式的事实、规则、实体、类别、属性和它们之间关系的规范构建的。作为手动构建符号系统(即本体)的替代方法,一些研究提出利用大型语言模型创建或增强本体。在特定上下文中,使用不同类型的操作从已建立的事实和规则中生成新知识。
通过嵌入进行端到端绑定
在大型语言模型中,符号绑定问题可以通过隐式建模学习到的概念的含义以及它们在高维向量空间中的关联来解决。在向量空间中,像词语和视觉概念这样的符号是根据它们经常出现的上下文以及它们与其他符号的关系进行编码的。研究人员已设计出技术,利用这种表示将学习到的嵌入与现实世界中的实际物体、感知经验、行为或概念联系起来。这些嵌入还可以建立与其他概念的语义关系。例如,短语“丰田陆地巡洋舰”可以与“汽车”、“交通工具”、“运输”等概念连接。此外,符号操作程序也可以利用底层神经网络的表达能力以端到端的方式进行学习。
虽然这一类技术比其他绑定方法更具可扩展性并且相对容易实现,但需要注意的是,这些方法在某些情况下可能无法产生精确的映射。也不常能确定哪些符号没有被正确绑定。因此,利用向量嵌入的绑定方法通常会面临可信度和缺乏可解释性的问题。
图11:可以通过积极探索世界并学习抽象数字符号所指代的实体的形式和含义来实现绑定。强化学习是一种通过互动学习这些符号的有效方式。图示由提供。
通过主动探索与环境互动进行绑定
符号绑定的一个重要方式是通过积极探索世界来寻找相关实体的意义。通过体现的方式促进大型语言模型代理的通用能力的方法已在第3节中详细讨论。从讨论中可以清楚地看出,体现作为知识获取工具的作用,源于其能够支持与世界的有意识行动或探索与互动。除了可以通过这些互动学习的认知技能外,(体现)机制还帮助大型语言模型代理通过与世界中的物体和现象的直接体验来学习抽象符号的意义。当前的研究通常采用强化学习技术,将语言结构、物理物体、抽象概念和行为直接联系起来。为了实现这一目标,代理首先学习将低级符号绑定到具体的体验中。反过来,高级概念可以基于这些低级符号构建并进行绑定。人类在环强化学习方法也被用于为高级概念提供更丰富的语义绑定。由于使用强化学习训练代理需要大量的试验,虚拟世界通常被用来模拟现实世界的行为。图11展示了这种方法的通用架构。
利用外部知识进行大型语言模型的绑定
除了上述讨论的显式符号绑定方法外,大型语言模型还可以利用来自不同来源的外部知识来提供“弱”绑定。例如,所谓的百科知识图谱可以表示从各种来源(包括像Wikipedia这样的百科全书和关系数据库挖掘的大量结构化知识。尽管这些方法可能不严格涉及通过语法或逻辑规则连接的抽象原始实体,但它们仍然在经典大型语言模型中提供了与纯隐式知识之间的桥梁,这些模型通过在大规模通用数据集上训练得到了。检索增强生成(RAG)是另一个用于将大型语言模型与外部知识绑定的常见技术。基本思想是利用来自外部来源的额外信息来增强现有的知识,以便进行绑定过程。RAG在需要将存储的通用知识与特定领域的知识结合的狭窄上下文中特别有用。RAG的另一种流行形式是领域工具增强,它使大型语言模型能够通过专门设计的应用程序编程接口(API)访问和使用外部工具和插件。
因果关系
人工智能与人类智能中的因果关系
因果关系描述了各种因素、现象或事件如何影响其他事件、物体或过程。因果学习最简单的形式是旨在确定两个变量之间的动态关系,其中一个变量(因)直接影响另一个变量(果)。在基础接地任务中,主要处理的是将原始符号(如词语)与其在物理世界中的有意义表示(即变量、现象、概念等)连接起来,而因果关系则专注于解释这些参数变化背后的机制和原因,以及它们如何影响世界中的各种结果。在机器学习和人工智能中,已知的因果关系可以由人类开发者明确编码。
因果推理——通过理解因果关系来解释事件的过程——使得 AI 系统能够推理(对复杂的现实现象做出准确的预测),例如结构对恶劣天气元素的抗性、气候变化、疾病传播、事故、人口增长、经济表现等。这种理解对于日常活动(如烹饪、洗衣和驾驶等)至关重要。
因果推理的另一个重要作用是提高对干扰的鲁棒性,并在潜在条件和内部机制或环境变化时保持正确的推理。因此,因果建模使得 AI 系统能够更好地泛化并将学到的知识转移到新的环境中。此外,关注因果关系的模型可以解释观察数据或数据固有的局限性和不足。例如,它们可以消除或减轻对抗样本的影响和偏差。
因果关系的基本原理
因果理解可以根据它们允许的因果推理能力的程度进行不同的分类。这些程度从基本的关联到假设场景的推理。最流行的分类框架是 Pearl 在中形式化的。它描述了一个三层层次结构,用于从观察或更具体地说,从数据中分类因果关系。这些层次分别是关联(第 1 层)、干预(第 2 层)和反事实(第 3 层),总结了每个因果层次处理的典型问题。根据这一框架,解决任何层次的推理问题,只有在拥有该层次或更高层次的信息时才能实现。最基本的因果推理层次,关联,涉及从观察中直接获得问题答案,通常是以观察数据中的统计关系的形式。干预,第二层因果推理,涉及估计改变一个变量(例如治疗选项)对目标变量(即特定结果,如恢复)的影响。此层次的因果信息使得能够正确预测特定行动的效果。
例如,10 牛顿的力作用在重卡车上不会引起任何可测量的运动。第三层,也是最高层,反事实推理,允许回答假设性问题或推断未观察到的结果。这包括回答“如果发生了这个,会怎么样?”类型的问题——也就是说,如果某些事件没有发生或以不同的方式发生,可能会发生什么。反事实推理使我们能够确定应操作哪个变量,以及操作的程度,以使目标变量达到某个期望的状态(获取期望的治疗结果)。解决该层次的智能问题需要使用关联性和干预性的信息。

图 12:Pearl提出的因果层次和每个层次能够处理的问题类型
在大型语言模型(LLMs)中建模因果关系的方法
学习因果关系(或因果建模)通常旨在解决两个问题:(1)因果发现——识别潜在的机制、它们的相关物理参数和支配系统运作的相互关系;(2)因果推断——基于对因果关系的预设假设,估算因果变量之间的相互影响。
因果建模可以是隐式学习因果关系,也可以是通过领域特定的因果机制和关系的先验知识进行显式表示。隐式因果学习方法依赖端到端的深度学习方法直接从数据中识别因果关系或应用该知识进行推断。我们将在接下来的小节中讨论建模因果关系的重要方法。以下是这些方法的比较,见表 II。
图 13:解释事件和观察结果或执行日常活动,如烹饪和驾驶,需要理解因果关系。例如,在烹饪中(a),需要理解体积、重量、沸腾等概念,以及火等实体的行为。同样,驾驶(b)需要理解速度、动量、惯性、碰撞等概念。
传统深度学习方法
在大规模通用数据上训练的多模态 LLM 显示了强大的建模因果关系的能力。这主要通过从大量训练数据中学习隐藏的模式实现。例如,LLM 可能能够推断出影响经济增长或通货膨胀的关键变量,并识别这些变量之间的因果联系,即使这些信息在训练数据中没有明确说明。
通过这种方式获得的知识受到以下限制:并非所有观察到的连接都是因果关系。实际上,许多现实世界现象表现出相关关系——即目标变量的变化通过巧合或无关的影响彼此跟随,但实际上并没有通过任何因果链条相互关联。在推理任务中,这种虚假的相关性可能导致不准确或错误的结论。
此外,由于它们能够通过发现训练数据中的隐藏模式来学习因果关系,LLM 还会在大量描述因果关系的文本上进行训练,包括数学关系、科学原理和定律等。在训练过程中,例如,模型可以获得有关因果关系的知识,允许它们处理高层次的因果推理任务——包括干预和反事实推理—例如,“缺乏体育锻炼会导致肥胖”。尽管看起来 LLM 能够强大地建模因果关系,研究者已表明,最先进的 LLM 实际上无法获得真正的因果推理能力,即使是在专门训练以使其具备因果能力的情况下,包括上下文学习和微调。
具体来说,单纯依赖数据训练的 LLM,在没有内在因果建模机制的情况下,并不具备对物理定律或支配现实世界行为的内在机制和原则的意识,它们的预测通常仅仅是基于已学到的相关性。这可能导致严重的错误。为了解决这一限制,研究人员通常需要依靠在特别策划的因果数据集上对模型进行微调以发现因果关系。然而,这种方法是一项繁琐且困难的任务,在复杂的现实世界环境中往往难以扩展。此外,这种方法通常需要许多简化假设,这有时会导致错误的因果关系。
神经符号方法
与主要学习统计依赖关系的深度学习方法不同,神经符号方法明确地将因果机制的先验知识纳入 LLM 模型中。实现这一目标的一种方式是利用知识图谱[331, 350]和其他结构化知识基础的因果表示与推理技术。由于这些模型自然编码了概念之间的关系,许多研究利用它们提供因果机制的结构化知识,LLM 然后将其融入信息生成过程。扩展 LLM 因果推理能力的最有效的神经符号方法之一是整合因果图模型,这是一类结构化知识技术,本质上具有因果性。基
本的方法是通过特殊的图表或图形形式正式表示因果假设。在表示中,图的节点表示因果变量,而边则指示变量之间存在的因果关系。通过评估多个变量的效应,可以确定这些因果假设是否有效。并且在这些假设成立的情况下,推导出描述关系的数学表达式。相反,这些方法允许研究人员证伪因果假设。其思路很简单:为了建立因果关系,需要隔离并引起其中一个可能因素的变化。如果存在因果关系,目标变量就会出现相应的变化。学到的潜在结构关系随后被整合到 LLM 神经网络的学习过程中。许多研究采用因果图模型,展示了这一方法的潜力。例如,Wang 等人提出了一
种名为因果关系增强(CRE)子模块的方法,利用结构因果模型(SCM)建模因果机制,并随后将其整合到 LMM 框架中。另一方面,Samarajeewa 等人[438]利用外部因果知识增强 LLM,以改善因果推理。作者认为,尽管 LLM 展现了强大的推理能力,但仍然需要来自结构化来源的额外因果知识,以充分推断因果关系。为此,他们使用 RAG 技术从外部知识源中恢复因果图,以增强 LLM 的因果推理能力。
由于上述图形方法建模因果机制的任务繁琐且耗时,一些新的方法已被提出,利用 LLM 本身构建因果图模型,进而增强 LLM。例如,许多近期的研究提议利用 LLM 自身所具备的广泛世界知识,包括因果关系的行为模式,来构建因果图。在这类工作中,LLM 通常作为因果关系的先验知识来源——即用来建立初始变量和依赖关系——或用来通过建议额外的因果变量来增强已知的因果关系。通常,LLM 帮助通过描述变量(即节点)和它们的因果关系(即边)来形成图的总体结构。通过这种方法,还可以与 LLM 交互并利用它的推理能力,通过提示来细化骨架图。
图 14:与 AI 系统不同,人类天然地具有对因果关系的直觉理解,包括对物质和系统的物理属性如何影响其行为的粗略知识。例如,玩家可以大致估算需要多少力和力的方向才能将球送到正确的位置。同样,守门员也能根据前锋踢球前的动作和姿势,大致推测出球的方向和速度。
物理信息世界模型
有一种假设认为,人类推断和推理因果事件的能力依赖于他们的世界模型。这个世界模型,或称金属模型,编码了世界中概念、现象和物体的因果抽象,并以保持明确但模糊的结构和行为规则的方式进行描述。基于这些抽象,人类在世界中具有有关物理交互的隐式、快速判断能力—即各种实体的基本属性以及这些属性如何影响行为。这使得人类能够做出无意识但快速的判断,例如,他们能够准确判断物体如何运动、坠落或碰撞。

表 II:不同方法因果关系强度的比较
注:在此表中,w.r.t. 是相对于;Assoc. 是因果关系的关联层次;Interv. 是干预层次;Count. 是反事实层次。
与这一思想一致,许多近期的研究利用基于直观物理引擎的虚拟世界,将大型语言模型(LLM)的知识与真实世界的因果属性和行为结合起来。这些模型采用基于先验知识的正式数学模型,来表示世界的物理定律。因此,它们能够模拟现实世界现象的因果关系和效果,如空气动力学、重力、力、光照和加热等。与此类虚拟世界交互的基于LLM的AI代理,在训练过程中学习到可泛化的因果法则和行为(例如飞行、下落、燃烧、变形、漂浮和破碎等)。借助心理学和人类学等领域的知识,也可以模拟人类行为以及社会互动。这使得对观察和互动进行“常识”推理成为可能。
这些内在关系使得代理能够轻松处理反事实问题。代理本身可以设计为具身虚拟模型,能够无缝地与模拟的因果世界进行交互。这类代理模型通常包含外部框架或子模块,利用准确的数学关系来建模描述代理自身属性和行为的物理定律。通过这种方式,具身代理(如机器人)能够预测自己行为的影响以及各种物理因素对自身的影响。
利用虚拟模型的因果建模方法具有许多优点。它们能够简化获取大量真实数据进行训练的复杂过程。更重要的是,关于物理交互的基础数学关系通常建立在严格的牛顿物理学、热力学基础上,或者根据所需的现实性级别,可能涉及粒子物理学和量子力学。因此,这类模型中编码的因果知识是精确的,通常没有任何模糊性,能够定义交互的精确结果。由于这种表现力和精确性,基于物理引擎的因果模型能够处理复杂现象,并且其一致性和准确性远超人类的直观理解。尽管如此,虚拟模型也存在一些局限性,限制了可以学习的技能的范围和复杂性。
这一研究方向的主要困难之一是,高度详细的大规模仿真通常需要巨大的计算能力。同时,建模如此精确的物理关系也是一项巨大的挑战。然而,最终AI系统的性能受到所使用模型质量和完整性的限制。仿真可能无法准确考虑模糊的概念或开发者未知的因素。例如,关于人类互动的仿真可能未能准确考虑文化、社会和情感因素。为了解决这些挑战,提出了一些方法来融入深度学习的知识,包括通过特殊的深度学习技术从数据中学习直观物理,或者通过强化学习与人类反馈学习交互策略。
另一个常见的局限性是,这些技术所建模的互动是刚性的,并严格按照编码的物理参数和规则进行操作。为了缓解这一缺点,一些研究提出了利用数据驱动的优化技术,在基于物理的模型中引入一定的变异性和随机性。
内存
生物系统与人工智能系统中的内存基本概念
记忆机制在生物学和人工智能系统中的作用与第二到第四节中的其他认知过程(如体现性、基础化和因果性)有根本不同。内存机制主要用于保存、巩固并随后提供通过这些其他过程获得的重要知识。内存机制不会产生关于世界的新知识,而是主要重新组织和结构化已经获得的知识。因此,内存在AGI中的主要作用是重构和组织已经获得的知识,以便进行高级认知任务和将来重复使用。新知识的产生通常是通过这一重组过程。内存有助于持续学习或终身学习,这是生物智能的一个重要特征。记忆还可以作为将先前的知识整合到AI系统中的手段。生活在同一物种中的生物通常共同占据一个生态位,并不断相互互动,主要以合作方式进行。
因此,它们的智能依赖于学习和维护有关共享行为特征的知识,这些特征支配着它们的互动。特别是人类,通常依赖共享的结构化知识,如规范、规则、信仰体系和习俗,这些知识使得人类能够在社会环境中无缝互动。除了记忆的信息外,人类和其他高等生物还具有内建的先天知识,这些知识编码在基因中,并从父母传给后代。为了实现类似的功能,AI方法通常通过知识图谱或本体论将与特定任务相关的结构化知识整合到内存中,以增强存储在内存中的已学知识。它们不仅包括关于世界的具体事实和对象特性,还包括世界的关系和一般规则。结合已学的知识,这使得对于新遇到的情况能够进行有效和有意义的推理。
除了存储和检索信息外,内存机制还可以作为一种手段,通过重新使用已计算的认知变量和解决方案来绕过昂贵的计算。例如,当人类第一次学习一项新任务(如驾驶)时,完成任务需要持续的注意力和有意识的努力。然而,在通过不断练习将所需技能固化到内存中后,学会的任务可以不费力地完成,无需过多注意。这一现象得到了心理学的有力支持,并且为此节省了有限的认知资源用于新技能的学习,并节省了能量。尤其是在需要分析推理的领域,如数学和复杂游戏,内存现象对心理参与型认知任务有特别的益处(有关详细信息,请参见[475, 476])。内存还在元认知任务中起着关键作用,其中有关某一领域的现有知识有助于学习新技能。此外,像想象和心理意象等现象也展示了先前计算的重用,以提高效率。
实现LLM内存的一般方法
在LLM中实现内存的主要技术包括:
深度神经网络中的参数
注意力机制
显式内存
适当的多样性和变异性
外部内存(例如,通过RAG)
作为模型参数的内存
经典的深度学习方法将与任务相关的知识存储为模型参数。诸如微调和上下文学习等技术通过修改这些已学的参数来融入新知识,而不是要求信息存储在独立的显式内存中。这通常会改变模型参数,并不可避免地导致重要信息的丧失,这一现象通常被称为灾难性遗忘。一种常见的解决方法是在微调过程中冻结某些模型参数,以确保仅修改需要改变的知识。更近的技术包括弹性权重整合(EWC)、无监督重播[484]和对抗性神经剪枝。通过知识编辑技术,也可以直接修改已学的知识,而不是通过微调方法重新训练模型。
注意力机制
另一种在LLM或神经网络中获得内存的方法是利用注意力机制,暂时保存并处理来自过去输入序列的信息。虽然大多数现代LLM基于transformer架构,但早期的语言模型采用了各种递归架构,包括递归神经网络(RNN)、长短时记忆(LSTM)、门控递归单元(GRU),这些架构通过隐藏状态显式地捕获并保留前期输入的片段,并使用注意力机制。实际上,这种注意力机制提供了短期内存,使得模型能够“记住”最近的序列,或者更技术地说,保持给定序列中的上下文。然而,在这种情况下,内存的容量非常有限。一些工作将LLM的上下文窗口视为内存,其中包含的提示信息被当作状态、任务或目标描述。这些信息被当作工作记忆。上下文窗口中的信息也可以是自然语言中的高层次概念,如对象或环境属性、任务目标、期望的技能或代理本身的属性。由于LLM上下文窗口的内存容量有限,这种内存机制可以处理的信息量非常小。此外,最近的工作(例如[495, 496, 497])表明,模型通常对上下文窗口的开头和结尾部分有偏好,优先处理这些部分,而忽略中间部分。因此,极长的上下文可能会导致大量信息(窗口两端以外的部分)未被记住,形成所谓的“遗失在中间”问题[497]。由于这些限制,显式内存被提出作为一种可行的解决方案,允许大型知识存储以实现通用代理的几乎无限的内存容量。
显式内存
为了解决上述内存技术的缺陷,已提出了一些方法,允许选择性地存储持久的、任务相关的信息以供以后使用。特别是,领域特定知识可以作为先验知识显式存储在内存中,以增强LLM学习到的广泛通用知识。通过与环境互动的过程中,代理的学习经验(即过去的决策、行动或尝试的行动以及来自环境的反馈)也可以显式存储在内存中。这种内存系统的核心在于通过与环境的交互,随着时间的推移采样和积累有用的经验。
关系数据库是传统信息密集型任务中最常见的存储类型。存储的信息可以通过顺序查询语言(SQL)查询轻松检索。这种方法还允许将信息存储在外部数据库服务器上,并在需要时检索。由于传统关系数据库的数据格式通常不是为LLM的直接使用而设计的,一种常见的解决方法是利用结构化数据库进行知识存储。向量数据库在这一过程中非常有用。这种内存系统可以将特定的事实、概念定义和实体关系以知识图谱的形式存储,LLM可以查询这些图谱来帮助推理。基于向量数据库的内存机制不仅支持快速检索,还允许在特征级别(即特征向量空间)进行复杂和精细的操作。此外,这种表示方法使得可以使用在训练阶段获得的学习操作,而不依赖于预定义的分析程序来操作存储的信息。
通过RAG的外部内存
在人类与其他动物的通用能力方面,一个关键的优势是人类能够使用外部知识资源和工具来增强或扩展其能力(例如,通过阅读手册、书籍或通过浏览互联网来获取某一任务所需的信息)。这减轻了将所有必要知识存储在内部的需求。受到这一启发,近年来的工作尝试使LLM能够访问和利用外部资源,从而扩展它们可以执行的任务范围。这也有助于克服由于内存和处理能力不足所带来的固有限制。例如,使用检索增强生成方法(RAG)[364, 514, 515, 516],模型可以查询外部知识库,以检索额外信息当它们在本地找不到所需的知识时。来自外部来源的信息可以直接处理并利用,或者可以存储在本地内存中以供后续使用。大量的知识可以存储很长时间,因为可以存储的信息量不依赖于代理的内存容量。此外,还可以利用已经
获得的所有存储知识来更新本地内存,进而增加知识的准确性。
陈述性记忆
陈述性记忆在生物学认知中也被称为显式记忆,因为其内容可以被有意识地提问和回忆。在人工智能的背景下,陈述性记忆涉及有关特定事实的知识,这些知识可以被显式地表示和检索。陈述性记忆进一步分为语义记忆和情节记忆。
语义记忆
语义记忆保存的是一般性知识,这些知识不依赖于特定的上下文或代理的“个人”或独特的经验。语义记忆中编码的知识包括事实、公式、一般规则和定律、定义,以及单词和符号及其含义。语义记忆侧重于关于世界的高级概念性知识,以及如何通过符号(例如单词)、图形和语言(音频)的方式来表达这些知识。除了关于世界的事实外,语义记忆还允许一般规则和抽象原则的保存,以供后续使用。这些规则在认知信息处理中被用来操作新信息。在这方面,它们充当了一个推理框架,用于解释世界以及获取和评估新知识。
在大型语言模型(LLM)中,语义知识自然地在训练过程中得到捕获。在训练过程中,多模态语言模型通过基于训练数据中的统计模式,学习将单词、短语、图像、符号和概念关联起来。这个过程使得LLM能够构建丰富的内在通用知识表示,这些知识在长期记忆中得以保存,并在未来检索,以支持认知任务。凭借这些知识,通用LLM在推理任务中表现出色,并能回答需要事实信息的问题。例如,“加利福尼亚州最大的城市是哪个?”或“1公里等于多少英尺?”这样的提问,这些模型都能轻松处理。它们也擅长从数据中提取一般规则,并将其应用于新任务。
这种能力是LLM在常识推理和分析推理方面的基础。语义记忆还可以通过以结构化形式编码的先验知识来实现,例如知识图谱和因果图模型,可以作为LLM中的长期记忆。这些LLM中的结构化知识子模块能够以持久的方式存储事实、规则、概念和关系,从而使得LLM在需要时可以检索有用的信息。诸如AriGraph 、HippoRAG 和KG-Agen等工作特别使用结构化知识形式作为长期记忆。这些专门的表示框架特别能模拟各种实体的复杂结构及其相互关系,这是语义记忆中所要捕获的信息 [468]。在这种表示中,高级概念、它们的属性和关系被显式连接。
情节记忆
情节记忆保存有关重要事件、经验和相关上下文信息—— 即关于事件的时间、地点、背景或情境信息,以及事件的性质(例如,视觉图像、特定特征,包括味觉、触觉、声音和其他伴随事件的感官信号)。这些信息以时间顺序排列的经历的形式表示。这些信息不是加法性的,即,不同的事件记录是分开的,经历不会被概括或积累。在大型语言模型中的情节记忆机制可以通过几种方式实现,包括利用底层Transformer架构的注意力机制来捕捉情节知识;将相关的情节信息从LLM的上下文窗口转移到长期存储;或者通过对包含显式情节知识的特定数据集微调通用的预训练LLM框架,从而将情节信息保存到长期记忆并在未来召回。
(b) 程序性记忆
程序性记忆涉及关于执行复杂活动所需的逻辑步骤的知识的获取、存储和召回。这通常涉及运动技能,例如自动驾驶、烹饪和机器人操作。在大型语言模型的领域,程序性记忆促进了诸如活动规划、执行指令、推理和执行物理动作等认知功能。这些高级认知能力是LLM的显著能力之一。
在生物认知系统中,程序性记忆的一个主要方面涉及潜意识过程 —— 即在代理的意识之外发生的过程,例如启动效应 [563] 和经典条件反射 。任务是学习并存储刺激与相应反应之间的自然关联,从而使得在正确的情境中自动触发适当的反应。这避免了进行复杂认知计算的需求,从而加快了反应时间。潜意识现象以及它们如何与显式表示(如事实)相互作用仍然是理解不足的。因此,在人工智能领域,这些技术的实现尚显不足。
大型语言模型中的程序性知识通常是隐式学习的,并存储在长期记忆中。这是通过LLM学习训练数据中的行动、结构和关系序列来实现的。在预训练阶段之后,LLM可以进一步在任务特定的传感器运动数据集上进行微调。微调过程旨在使模型能够内化(即从头学习)或细化(即对稍有不同的任务进行调整)生成和遵循解决给定问题所需的明确执行计划。尽管最先进的模型在程序性任务上表现出色,但通常更有效的方式是借助神经符号技术显式地编码特定技能 。这些符号方法有时被用来提供结构化的推理框架,供隐式学习的程序性知识用于解决特定的问题集。
基于体现性、基础性、因果性和记忆原则的通用人工智能(AGI)框架
在本节中,我们将发展一个统一的AGI概念框架,结合本文中讨论的各个概念。该框架实现了支持实现复杂、强大且通用智能的基本计算机制,基于本文第2至第5节讨论的原则。本文调查的这些看似孤立的概念——体现性、基础性、因果性和记忆——在促进人工通用智能方面,其功能是相互关联和互补的。体现性提供了与世界交互所需的通用结构和机制。这使得AI系统能够通过感知系统体验世界,并通过响应感官输入和目标,执行期望的动作来影响世界的状态。这些体现性的经验为基础性符号提供了有用的信号。
也就是说,体现性允许代理获取有意义的传感器-运动体验——通过实际感知和与世界的交互——这些体验用于将抽象的表示与代理的实际感知和交互进行基础性连接,而不是仅仅依赖于训练数据中输入词语的抽象语言关联。通过这种方式,体现性经验反过来使代理能够通过与世界的互动和反馈,直接观察并学习因果关系。此外,记忆机制提供了编码、存储和访问基础性符号、体现性经验和因果关系的手段,这些是通过训练AI代理过程中的学习获得的。
此外,记忆还作为一种手段,将已知的因果关系和基础性符号作为先验知识进行整合。如图16所示,从代理的观察和与环境的体现性交互中学习到的因果知识和符号关联,可以通过记忆中编码的结构化知识与已知的因果关系和基础性符号相结合,从而为稳健的感知、推理和其他认知任务提供更全面的知识。这些机制共同作用,形成了一个强大的框架,使得大型语言模型(LLM)代理能够更好地进行知识泛化。

图16:基于本文讨论原则的通用AGI系统的功能框图。概念模型包括:
(1)核心框架——体现性,它提供了与世界交互所需的物理本质和机制;
(2)记忆,由不同的记忆子系统组成——感官、工作和长期记忆,它们的作用之一是允许已学和先验知识随着时间的推移得以保存和积累;
(3)符号基础性子系统,它提供了一种将基础性模型中的抽象表示与世界中的实际实体连接的方式;
(4)因果学习机制,学习与现实世界中的实体相关的属性和物理法则。需要注意的是,符号基础性和因果学习机制结合了记忆中编码的先验知识和通过认知信息处理学习到的知识,以实现正确的结果。
讨论
大型语言模型在许多任务上已经超越了传统的深度学习方法。它们在许多非平凡的AI问题上取得了令人印象深刻的成果,包括推理、规划、多模态生成(即文本、图像、视频、语音等)、开放世界导航、编程、自然语言理解和开放领域问答。由于这些能力,包括谷歌、OpenAI、Meta、Nvidia、亚马逊、苹果和微软等科技巨头公司都投入了巨额资金和人力来开发通用的以及特定领域的通用人工智能系统。最先进的通用AI系统也越来越多地被融入到商业产品中,如搜索引擎、聊天机器人、通用软件、便携式导航设备、智能手机、自动驾驶汽车和扩展现实系统中。近年来,多模态语言模型的成功极大地提高了机器在可预见的未来实现普遍智能的期望。事实上,一些研究人员认为,随着最先进的大型语言模型(LLM)的发展,通用人工智能已经可以实现。
尽管多模态LLM表现出巨大的潜力,但目前这些说法仍然是过早且夸大的。实现人工通用智能的可能途径是继续扩大大型通用机器学习算法的规模,并用越来越多的数据训练它们,以便处理多个领域中的复杂问题。考虑到最先进的神经网络框架,尤其是多模态大型语言模型已经取得的令人印象深刻的成果,这种方法在原则上似乎是可能的。
大模型的规模和庞大的多样化训练数据使得这些模型能够捕捉到适用于多个问题领域和应用场景的通用而复杂的概念,以及语义丰富的模式和关联。然而,经验表明,这种方法存在严重的局限性:许多专业领域的数据有限,神经网络往往只能学习数据关联,难以区分表面关联和因果关系。此外,正如最先进的大型语言模型所展示的,这些智能系统在知识的复杂性和在未知情境下灵活应用学习的能力上仍显得非常肤浅。因此,仅仅扩大LLM的规模并在更大的数据集上进行训练,可能不足以实现人类水平的智能。
大型语言模型仍然无法匹敌生物认知系统的稳健性、灵活性、效率以及总体的通用能力。与大型语言模型和AI系统相比,人类智能是极其丰富且多方面的。人类能够在没有直接测量的情况下,对物体的属性和行为作出准确判断。为了弥补这一缺陷,许多研究旨在通过设计生物智能的特定属性,来实现强大、稳健、数据高效、灵活适应的通用智能。特别是本文讨论的这些概念——体现性、基础性、因果性和记忆——将对实现显著的里程碑非常有帮助。尽管这些原则很有前景,但实现这些概念的每种方法仍有很大的改进空间。还需要强调的是,这些概念只能解决与实现通用人类水平智能相关的特定认知问题。然而,要促进通用智能,更有益的做法是将这些原则和方法以更加集成的方式纳入到单一的认知框架中。
因此,尽管体现性、符号基础性、因果性和记忆的概念早已被认为是人工通用智能的基础,并且广泛应用于推动LLM的最先进发展,但向AGI的持续进步将需要为设计实现所有这些原则的LLM提供根本性的新范式。这种设计理念将涉及将深度学习模型与神经符号技术相结合,利用先验信息编码现实世界的约束和物理属性。这种方法要求将这些核心概念视为一组相互关联且互补的原语,共同建模智能代理及其环境。然后,认知过程就简化为接口的各种子组件,并处理和交换它们之间的信息。处理过的认知信息将被用来理解特定事件、与世界互动、解释观察结果并解释反事实。在这种背景下,处理训练数据集中不存在或稀疏表示的情境将是极其重要的。
另一个关于AGI研究的重大挑战是,尽管实现人类水平的通用智能似乎是一个明确的目标,但评估和确定何时达到这一目标是一个具有挑战性的问题。特别是,虽然AI系统和人类的智能比较通常基于特定任务集上的表现,但人类和机器智能在设计和功能上的根本差异也存在。这些差异反映在它们各自的优势和劣势上。例如,生物智能是通过进化发展出来的,目的是为了代理自身(或其后代)在动态和敌对的环境中生存。
人类智能本质上是模糊的、广泛的、可适应的,并且包括诸如情感、社会和创造性推理等主观方面。相比之下,机器智能通常是为了解决特定问题集而设计和优化的——无论这些问题多么通用。由于它们在本质、设计目标和具体能力上的重要差异,比较可能导致误导性的结果。因此,即使AI代理在复杂任务上表现出与人类相当的通用性能,仍然很难将其归类为通用智能。此外,作为一个抽象概念,智能是一个包含多个维度的连续度量,且以客观标准衡量它是不可行的。因此,评估最先进的LLM是否接近实现AGI也并不现实。
尽管如此,随着智能代理能力的不断提高,当我们不再能区分AI代理和人类在各种复杂(虚拟或现实世界)环境中的决策和行为时,我们可以安全地得出结论,认为我们已经达到了某种程度的人类水平的通用智能,即使它在某种程度上是有限的。目前,最先进的LLM代理在复杂的人类中心环境
中执行复杂任务的能力日益增强,并且能够在特定的开放世界环境中担任领导角色,并提供专业的指导,随着代理与人类的互动,信任以及专业、社会和情感关系可能会发展。这些代理越来越表现出人类的基本特征和能力,包括理解人类情感状态的能力;共情;对意外和随机事件作出反应;帮助和请求帮助;与人类及其他代理合作共同解决问题;以及与人类进行有意义的对话。在这个阶段,我们离某种形式的通用智能并不遥远。