Demis Hassabis:当 AI 开始解释和操作世界,就不再是工具,而是真实世界参与者

AI资讯 18小时前 charles
125 0

Demis Hassabis:当 AI 开始解释和操作世界,就不再是工具,而是真实世界参与者Demis Hassabis:当 AI 开始解释和操作世界,就不再是工具,而是真实世界参与者Demis Hassabis:当 AI 开始解释和操作世界,就不再是工具,而是真实世界参与者

作为一位跨越游戏、神经科学与 AI 研究的科学家,Google DeepMind 联合创始人&CEO、2024 年诺贝尔化学奖得主 Demis Hassabis 在美国高级研究院(IAS)的分享中,多次强调他对“智能系统的建构过程”本身的关注,以及他所提出的猜想:“自然界中一切可被发现的模式,理论上都应能被经典学习算法所建模。

Hassabis 告诉 IAS 院长 David Nirenberg, 游戏、科学与数学并非应用终点,而是构建世界模型能力的核心训练场。

无论是 AlphaGo、AlphaFold,还是最新的 Gemini 模型与 Project Astra,DeepMind 的路线始终围绕“模型主导的决策与规划能力”,而非仅止于语言生成;在 AGI 尚不成熟的当下,他将 DeepMind 定位为“科学工具的开发者”,而非产品制造者。

AI 的最重要任务,不是替代人类,而是作为“协作型智能系统”,帮助人类提出新问题、建立更复杂的世界模型、拓展认知边界。而研究院的角色,也许正如他所言,是构建这一进程所需的“制度新范式”的最早试验场。

I/O 到 iO,Jony Ive 将推动一场新的设计运动 —— AI 正在改写计算范式与硬件定义,也是大模型后的新战场

从游戏,到 AI 科学家

对 Demis Hassabis 而言,游戏远不止是一种个人兴趣,而是一扇通往智能本质的窗口。他从象棋启蒙,逐步深入围棋、扑克等复杂博弈,并由此建立起一种长期认知直觉:游戏不仅是策略与技巧的集合体,更是现实世界结构的压缩映射。

在游戏中,决策路径清晰、反馈回路紧密、变量可控,正是构建与验证智能模型的理想场景。Hassabis 并非孤立地提出这一观点。

图灵、香农、冯·诺伊曼等计算理论奠基者,早在 20 世纪中叶便开始以博弈为切入点,尝试理解人类理性与机器决策的边界。

回顾《博弈论与经济行为》《游戏中的人》等经典著作,他强调游戏在现代科学与社会科学建模中的基础地位。游戏的价值不仅在于规则的清晰与目标的可量化,更在于它们能生成大量结构化数据,为 AI 提供极具操作性的训练素材。

DeepMind 在开发 AlphaGo、AlphaZero、MuZero 的过程中,始终沿用从规则设定、策略建模到反馈调优的闭环流程。在他看来,这种建模方式就像语言或符号系统,是 AI 理解世界的一种基础能力。

亚洲文化中的围棋,则是这种博弈思维的极致体现——它蕴含极深的空间直觉、战略规划与哲学思辨,这些特性也逐渐转化为 AI 理解复杂情境的基础结构。

完全信息博弈如象棋、围棋,为模型提供了规则完整、观测充分的训练基础,适合作为算法的起步阶段。而像德州扑克这样的不完全信息博弈,则引入了隐藏变量与博弈策略的多层次推演,使模型能更贴近现实中复杂、不确定的信息环境。

DeepMind 的研究从前者起步,逐渐向后者拓展,并延伸至更具开放性的任务,如语言、多模态理解与现实场景推理。这一演进轨迹在最新系统 Gemini 与 Project Astra 中得到体现,这些模型已具备多模态输入处理能力,在图像识别、语言理解与直觉物理之间建立跨域映射。

在某些看似轻松的游戏场景中,如“你比划我猜”这类含有动作、语言与语境推理的交互任务中,这些系统已经表现出显著的情境感知与响应能力,显示出模型内部对规则、目标与变化关系的综合建模能力。

Hassabis 坦言,DeepMind 并不将博弈本身视为终点。AlphaGo 胜出后的一次重大转向——那场比赛结束后,他几乎立刻着手筹建一个跨学科团队,转向攻克蛋白质结构预测问题。

在他看来, AGI 的理想系统,必须能够在多个任务之间迁移、在不同领域表现稳定,博弈只是这个过程中极好的训练平台,而不是目标本身。真正值得投入的,是那些科学价值高、结构复杂且拥有可验证反馈的问题。

他回忆,少年时期便热衷于思考“意识从何而来”“宇宙为何存在”这类宏大命题。物理学大师如费曼、Steven Weinberg 的著作曾一度吸引他走向理论物理,但物理理论在当时陷入发展停滞的现状,也令他意识到,仅靠个体智识已难以推动终极问题的突破。

因此,他转而追问:能否构建一个人工系统,使其帮助人类从另一个角度理解智能本身?如果构建智能系统就是一项科学实验,那么我们是否可以通过“造出智能”来反过来解释人类的思维过程?

在与 Nirenberg 的对话中,一个关键问题被提出:AlphaFold 的突破,是建立在超过十万条蛋白质结构数据的训练集之上,而这些数据正是数十年科研积累、成千上万位生物学家逐步解析的结果。那么,当 AI 要处理更复杂、数据稀缺的问题时,如何保证类似的训练基础?

Hassabis 坦言,AlphaFold 确实站在结构生物学半个世纪积累的肩膀之上。但他也补充,团队在开发早期版本时,采用了“自举训练”的策略:先利用一个不完善的模型预测出一百万个新蛋白质结构,再从中挑选三十万个最可信的结果加入训练集,从而用合成数据反向扩展训练基础。这种数据生成策略不仅提升了模型的泛化能力,也验证了模型本身的科学合理性。

他解释,选择蛋白质结构作为攻坚对象,正是因为这个问题满足了几个关键条件:有明确的目标函数、有结构化数据支持、有科学界认可的验证方法,而且其本质为一个建模问题——这是 AI 表现出最大潜力的领域。

因此,DeepMind 在其他方向的项目选择中,也始终遵循这一原则:寻找那些问题定义清晰、难度高、可验证的科学任务。而他本人也长期关注各类跨学科环境中的潜在研究对象,尤其是在 IAS 等研究机构驻留期间,习惯性地寻找“下一个 AlphaFold”。

Alpha 系列系统的方法论本质也承袭了这一思想:首先从真实世界中提取结构化问题,在神经网络模型中构建预测与表达框架;再通过大规模搜索与反馈机制优化策略路径;最后在精度反馈中不断调整权重,实现建模、验证与迁移的完整闭环

这一通用逻辑,不仅适用于游戏与生物学,还正在拓展至数学、物理与经济等复杂系统中,显示出 AI 不再是工具角色,而是成为“科学探索参与者”的可能路径。

渐渐成为世界的参与者

在 DeepMind 的构想中,一个理想的 Agent 应该能够感知环境、模拟未来、理解因果,并对新情境做出合理反应。它不仅是对 LLM 阶段的延展,更是对“理解”能力本身的一次技术实现。

Project Astra 和 Gemini 的协同,正试图在技术架构层面实现这一智能蓝图。Astra 更强调持续感知与任务执行,关注系统如何在现实世界中长期运作、获取信息、调整策略;而 Gemini 则着力于构建通用的多模态理解引擎,在语言、视觉、音频、代码等领域同时训练与融合,构成 AI 的“认知中枢”。

Demis Hassabis 特别强调了一点:Astra 并非“升级版 ChatGPT”,而是一次认知架构的重构尝试。它不是从“语言出发”的生成系统,而是从“世界建模”出发,目标是让 AI 能够解释与推演现实中的复杂现象。

他希望未来的 AI 能像人类一样,用一套稳定但可扩展的认知框架,在不同情境中灵活应对、多轮互动并主动发现问题。

为了测试这些能力的上限,DeepMind 正在设计一系列更具挑战性的世界建模任务。这些任务既包括对自然语言和物理环境的组合理解,也涵盖了复杂因果结构、多步推理链路与跨模态行为规划。

例如:生成一个“厨房日常”场景,要求模型理解角色意图、物体属性、事件先后顺序与多种突发状况的应对策略。只有在此类任务中取得突破,AI 才可能真正具备作为“世界代理人”的能力。

与此同时,Hassabis 也强调技术之外的维度。一旦 AI 拥有解释世界与操作世界的能力,它就不再只是工具,而是参与者。此时的问题将不再局限于“技术做得到什么”,而是“技术应该做什么”,以及“由谁来决定它做什么”。

他反复提及制度建设的重要性。未来的 AI 需要被纳入一个类似“科学共同体”的社会机制中,由不同学科背景的专家共同审议其发展方向与边界。不能只由工程师来决定 AI 的能力上线,也不能让单一公司掌控模型的价值排序机制。

对此,他建议设立一个全球性、去中心化的协调机制,覆盖从模型训练到部署再到治理的全链条流程,并具备伦理判断力与政策协调力。

这也引申出 DeepMind 多年来一贯的价值观:技术突破不应脱离社会语境,科学探索必须与制度伦理并行。在 Project Astra 的开发过程中,他们便引入了伦理顾问、语言学家与政策专家的参与,试图在系统构建初期就嵌入价值讨论。这种做法并非为了规避风险,而是出于深层理解:智能系统一旦真正具备自主性,后设规则的构建本身就是一项前置工程。

Hassabis 将当前的阶段视为“智能系统的结构重塑期”,而非应用产品的爆发窗口。真正的飞跃,将来自我们是否能成功建立起能映射世界结构、具备推理更新能力、能持续运行于现实环境的系统。正如他所说:“我们所构建的,不应只是更快的语言模型,而是更强的思维引擎。

或许未来十年,衡量一个 AI 系统是否“先进”的标准,将不再是它生成了多长的回答、多快的图片、多准的语义匹配,而是它能否理解一个看似简单却富含结构的场景:一个人站在厨房里,切下一片番茄,然后顺手放进锅里。

这其中涉及的不只是动作,更有时间的连续性、空间的协调性、工具与目标的关联,以及背后的计划逻辑与行为意图。这一能力的实现,标志着 AI 从“表面智能”向“结构智能”的跃迁,也标志着 DeepMind 从算法优越向认知系统建构的路径切换。

这场转变不会一蹴而就,也不会只有一家公司完成。Hassabis 认为,重要的不是谁第一个做到,而是谁能在每一个关键节点上,保持对“什么是智能”的真实追问;在 AGI 真正落地前,必须先建立一个透明、负责任且能够承载公共讨论的平台。否则,无论技术多先进,它也只是另一个无法理解自身的系统。

数学,走向 AGI 核心

在 DeepMind 的最新研究中,一条看似冷门的路径正逐步走向 AGI 的核心——数学。DeepMind 的数学团队近年来频繁出现在各大研究机构,与数理逻辑、代数几何等基础学科的学者共同探讨一些最抽象的问题。

其中最具代表性的成果之一,是一个名为 AlphaProof 的系统,它尝试把数学定理的证明过程转化为一种类似棋局的策略搜索。团队的基本设想是,证明就像下棋,每一步都在向目标命题靠近。系统基于 Lean 这样的形式语言,在严格的逻辑规则中进行推理,寻找可行的解题路径。

与传统符号逻辑不同,AlphaProof 展现出一定的生成能力——不仅能自己生成训练样本,还能自主完成验证。这一过程摆脱了对人工标注的依赖,显示出更强的自适应能力。

对于“如何选择 AI 研究方向”,Hassabis 给出了自己的判断标准:这个问题是否有清晰的目标函数,是否能够自动或大规模生成高质量数据,是否足够复杂到可以测试 AGI 的边界。

他认为,数学正好满足所有这些条件。特别是验证环节,数学问题具备天然的“自动判定”属性,是构建高效闭环系统的理想场景。

在诸多数学议题中,Hassabis 尤其关注 P vs NP 问题。他称这一千禧年难题为 AGI 时代的“灵魂追问”,它不仅关乎计算复杂性的边界,也关系到推理系统能否在有效时间内解决复杂问题。

他坦言,如果能在某个夏天专心钻研,他会将全部精力投入这个问题。在他看来,从 AlphaGo 到 AlphaFold,每一次技术飞跃都是对“可计算性”边界的挑战。

从数学推理走向更广义的世界建模,Hassabis 强调 DeepMind 多年来始终坚持的一条主线:构建“世界模型”。无论是早期的 Atari 游戏、围棋系统,还是后来的分子结构预测,其核心目标都不是单纯给出答案,而是帮助 AI 理解世界的运作方式。

所谓世界模型,指的是 AI 能够模拟空间结构、物理规律、因果关系与动态场景变化的能力。这一概念与 Hassabis 早年的神经科学研究密切相关。他在剑桥时期曾研究大脑中“记忆”与“想象”机制,并发现人类回忆过去和设想未来时,脑区高度重叠。

这意味着,人类之所以能规划未来,是因为大脑本质上具备一种基于过往经验的“内部模拟器”。这也成为他构想 AI 时的重要参考——让系统拥有类似的模拟能力,而不仅仅是输出语言。

这个理念正在 DeepMind 的两个核心项目中逐步实现。Project Astra 是其中之一,它正在尝试打造一种“持续感知+推理+行动”的 agent 原型,而 Gemini 模型家族则承担了多模态理解的基础工作,支持文本、图像、代码、音频乃至视频的统一处理框架,并具备一定程度的因果建模与语义一致性能力。

Gemini 因此被设计为一种具备通用认知能力的系统,它融合了语言生成的灵活性、视觉识别的准确性、物理推理的严密性和代码逻辑的结构性。而 Astra 则更贴近应用场景,目标是构建一个能够长期交互、主动理解环境、完成实际任务的“数字伙伴”。

在 Hassabis 的构想中,AI 不应仅仅是预测工具,而应是具备内在建模能力的系统,能够通过理解世界而不是仅仅复制语言,去完成复杂任务。

DeepMind 的技术演进路线——从博弈、分子、数学再到多模态世界建模——实际上一直在锚定同一个方向:通过建构对世界因果结构的抽象模型,建立具备推理能力的 agent。

当一个模型可以以“切番茄”这种日常而复杂的任务为入口,展现出对空间、力学与行为逻辑的连贯理解时,某种全新的智能形态,已经悄然浮现。这不只是模型能力的展示,更像是对 AGI 可能形态的一次原型验证。

理解世界,具身是否必要?

在 DeepMind 最近的实验中,一个 Demis Hassabis 长期坚持的假设正被挑战:要让 AI 理解世界,是否真的必须赋予它“身体”?

过去,Hassabis 深信智能必须具身,认为理解物理规律和发展直觉认知需要通过身体与环境的交互。

但这次的实验结果显示,仅通过图像数据,AI 就能在没有传感器或触觉的情况下模拟出高度复杂的物理过程。它不仅能重现刀切番茄的过程、水珠飞溅的细节,甚至连光线反射的变化都捕捉得真实而稳定。这种能力展现了系统对时间因果结构的理解,令人意外。

Hassabis 承认,这超出了他对“感知”边界的原有理解,也表明 AGI 的发展可能不再依赖身体经验。

当 Nirenberg 提问为何大学和基础研究机构在 AI 演化中正逐渐边缘化?Hassabis 表示,DeepMind 之所以在企业内部开展基础研究,是出于现实考量。相比学术界,企业在算力、工程资源和资金效率上有着显著优势,而初创企业的快速节奏也推动了技术的发展。

红杉美国 Roelof Botha 谈 AI 时代 VC 观察模型 —— AI 不像互联网那样削弱中心化,但仍有结构机会

✦ 精选内容 ✦

Meta 140 亿美元收购 ScaleAI 49% 股份!Alexandr Wang 掌舵 AI 战略,内部组建超级智能小组
AI 是比 PC 更深远的范式转移!Cursor 创始人复盘:AI 编程工具本质是提升人类指令表达能力,持续构建优秀产品才是壁垒
Airwallex CEO 十年创业复盘:拒绝 Stripe 收购,如今 ARR 接近 10 亿美元,估值 62 亿美元
Perplexity CEO:AI 搜索真正竞争不是模型,而是抢夺 First Query 入口,打造认知操作系统
李飞飞对话 a16z:LLM 是有损压缩,世界模型才是真正重要方向,应用远超机器人
Sam Altman:人机协作发生根本性变化,人类分发任务,整合并反馈 Agent 产生的结果,AGI 仅是新一轮起点
Windsurf CEO 最新创业复盘:AI Agent 是软件工程未来形态,而速度与专注是创业公司唯一护城河
Demis Hassabis:当 AI 开始解释和操作世界,就不再是工具,而是真实世界参与者
Demis Hassabis:当 AI 开始解释和操作世界,就不再是工具,而是真实世界参与者





相关文章