大模型之后,机器人正在等待它的“GPT-1 时刻”


大模型之后,机器人正在等待它的“GPT-1 时刻”


导语 |

 

随着大语言模型的飞速演进,人工智能正加速从"语言理解"迈向"行为执行",具身智能的发展也进入关键阶段,机器人虽在移动能力方面取得突破,但在操作能力和通用泛化方面仍面临严峻挑战。在这场技术变革中,数据 × 模型 × 智能的融合成为推动智能系统"理解"与"行动"的核心变量。如何通过更大规模的数据、更高效的模型和更强的工程能力,实现机器人在开放环境中的稳定运行与任务泛化,是当前人工智能领域亟待突破的难题。本文特邀腾讯云 TVP 邓亚峰,深入解析大语言模型的技术演进路径、具身智能的发展瓶颈与未来趋势,探讨机器人领域在商业化落地过程中的关键挑战与可能突破。


目录

一、从特征工程到自监督学习:数据驱动下的 AI 四次飞跃

二、大语言模型和人类的“快思慢想”

三、Scaling Law 揭秘:为什么越长”聪明”

四、具身机器人的“GPT-1时刻”何时出现?    

● 具身机器人为何迟迟未迎来“破晓时刻”?    

● 大语言模型 vs 具身机器人

五、从实验室到产业化:机器人产品化的关键跃迁

六、VLA 破局之路:数据和模型突破

七、如何在具身机器人的“GPT-1时刻”来临前赢得先机?

作者简介


大模型之后,机器人正在等待它的“GPT-1 时刻”


邓亚峰,毕业于清华大学,拥有二十年人工智能算法及产品研发经验。曾任 360 集团副总裁、人工智能研究院院长兼搜索事业部总经理,科创板第一家人工智能上市公司格灵深瞳 CTO,北京人工智能产业联盟副理事长等职务,曾获 2021 年中国人工智能年度十大风云人物称号、教育部技术发明奖二等奖。带领团队在计算机视觉、多模态、智能搜索、AI 制药等领域做出过创新成果或先进产品,多次在国际国内主流人工智能评测中获得过第一名,累计申请发明专利 140 余项(已授权 98 项),发表论文 40+ 篇。


一、从特征工程到自监督学习:

数据驱动下的AI四次飞跃


我从事人工智能研究已有 20 余年,从 2002 年清华大学求学至今,AI 经历了多次技术浪潮。其中两个重要拐点分别是 2012 年深度学习兴起,以及 2022 年大语言模型(LLM)的爆发,整体来看,人工智能的发展是在加速的。

人工智能的发展一直是围绕着如何利用更多数据训练更大模型进行的,大致可以分为四个阶段:

 2012 年之前:弱模型与特征工程主导期,模型能力弱,依赖人工特征设计,数据量对性能提升有限;

 2012 年开启:深度学习的兴起(监督学习时代),2012 年深度学习技术的突破成为关键转折点,深度神经网络广泛应用,模型性能显著提升,但依赖昂贵的监督学习数据;

 2022 年加速:大语言模型与自监督学习的突破,这一阶段以大语言模型的出现为标志,自监督学习成为主流,训练数据扩展至万亿级,模型参数也达到千亿级别;

 当前进行时:基于能力扩展的持续进化,引入强化学习机制,尤其是结合"思维链"(Chain-of-Thought)等方法,进一步增强了语言模型的推理与生成能力。


AI 的发展路径正逐步接近人类大脑的学习机制:通过大量感知与交互进行“自监督学习”。回顾人工智能的发展历史,我也曾多次经历技术高潮与低谷。而我最深刻的体会是:任何技术路线,如果不符合“Scaling Law”——即模型参数更大、训练数据更多、推理时输出更长,效果就更好——那么这种方向往往最终是错误的。


大语言模型自 2018 年 GPT-1 架构确立后,就更多集中在如何利用更大规模的数据,以及通过各种形式的功能训练来进一步提升模型性能。2020 年的 GPT-3 成为关键节点,推动了如 ChatGPT 等应用的发展。目前的发展趋势大致沿着两个方向展开:一个是多模态方向,即将视频、图像等模态引入模型,进一步拓展其感知能力;另一个则是继续基于语言模态进行优化和深化。


二、大语言模型和人类的“快思慢想”


尽管存在"幻觉"问题,但大语言模型的推理机制正在逐渐接近人类的认知过程。人类在决策时也有两个系统,一个是快速反应的直觉系统,另一个是缓慢但理性的分析系统。对于简单问题,我们可能脱口而出答案;而对于复杂问题,则需要深入思考。


早期 LLM 模型如同"直觉系统",直接输出答案;引入"思维链"技术后,模型能够进行分步骤推理,更类似于人类的理性思考方式。这种进化不仅依赖于监督学习,还借鉴了人类通过环境反馈进行强化学习的方式,AlphaGo 的成功便是明证。


而春节期间爆火的 DeepSeek 做出了非常创新的尝试,此前,大家普遍认为必须告诉 AI 人类是如何思考的,但 DeepSeek 不需要明确的人类思维链数据,仅通过问题-答案的训练,AI 就能自主学习如何推理。随后通过加入人类思维链优化输出,使得推理更加符合人类习惯。


三、Scaling Law揭秘:

为什么“越长”越“聪明”?


此时大家又注意到“Scaling Law”的现象:当我们使用语言模型时,输出文本越长,效果通常越好。这与人类思考方式相似,因为文字是人类思维和智能的重要载体,当 AI 按照人类思考模式不断生成较长的回答时,其解决问题的准确性也会提高。

这一现象表明,随着训练步骤的增加,模型倾向于生成更长的回答,尽管我们并未对此设定明确约束,而是模型自行发现了这种规律——即回答越长,效果越好。


大模型之后,机器人正在等待它的“GPT-1 时刻”
模型训练步数-回答平均长度(以DeepSeek R1-zero为例)


在语言模型的发展过程中,有两个阶段值得注意,第一是预训练,正如前面提到的,强化学习虽能提升模型的逻辑推理能力,但其效果高度依赖基础模型的质量。若基础模型训练不足,则难以展现出有效的推理能力。第二是后训练,通常是在高质量基础模型之上,利用少量强化学习数据进一步提升模型的推理能力。这一阶段的进展标志着大语言模型技术已迈入高度成熟的发展阶段。


四、具身机器人的

“GPT-1时刻”何时出现?


具身机器人为何迟迟未迎来“破晓时刻”?


尽管大语言模型在语言理解、推理与生成方面展现出前所未有的能力,但它们依然缺乏一个关键维度——物理世界的实时交互。人类智能不仅体现在语言与思维上,更体现在通过身体感知环境、与世界互动、在行动中学习与适应的能力,在这一背景下,具身智能逐渐成为人工智能发展的下一个重要方向。


机器人虽已经发展多年,但尚未达到真正的智能水平,无法实现广泛的泛化和通用性,应用场景也因此受到限制。例如,我们在春晚上看到的机器人舞蹈表演,其动作都是预先编排好的,而在流水线或车间中使用的机器人则是通过编程执行特定步骤,而非依赖于 AI 技术自主决策。


不过,在某些特定场景下,如扫地机器人等清洁类应用,已经取得了较为成熟的成果。总体而言,当前机器人技术的应用场景仍然相对局限,这也限制了其商业化的可能性。


展望未来十年乃至二十年,影响机器人大规模落地的关键因素如下:


 

成本:随着规模化生产,单个机器人的成本有望降至约一万元人民币(相当于五台空调的价格),这一价格水平对于市场接受度来说并不是主要障碍。

 显著可衡量的价值:机器人必须为用户提供显著且可衡量的价值,这一点在机器人领域相对容易实现。

 持续稳定工作:机器人需要能够在特定场景中稳定运行至少六个月,无论是工厂环境还是家庭使用,都要求其具备高度的可靠性,这是未来最主要面临的挑战

大语言模型 vs 具身机器人


接下来,我们可以对比一下具身机器人与大语言模型之间的差异,在我看来,首先大语言模型得益于海量的语料库支持,而机器人领域则缺乏足够的数据量。而数据的质量和数量直接决定了模型的表现及方法的有效性,经过多年的研究和发展,我认为目前的模型架构已经相当先进,理论上可以用这些模型来描述机器人任务。


大模型之后,机器人正在等待它的“GPT-1 时刻”
大语言模型和具身机器人的对比


然而,由于缺乏足够丰富的数据,无法像大语言模型那样通过大规模数据训练来提升性能,因此机器人领域的挑战更多在于如何获取和利用数据,而不是模型本身的架构设计。从技术发展现状来看,我认为具身机器人领域尚未出现像 2018 年 GPT-1 那样具有标志性意义的突破,这正是当前技术阶段的真实写照。


在商业化层面,语言模型的落地其实面临较大挑战,市场竞争也十分激烈。无论是云厂商、互联网平台,还是 AI 创业公司,都在围绕语言模型展开激烈角逐。相比之下,机器人在商业化上的潜力更大,对不同类型、不同体量企业的包容性也更强。


当前语言模型的竞争主要集中在应用场景的拓展上,例如 Agent 应用,因为模型的基础能力已经非常强大。而在具身机器人领域,真正的竞争焦点仍然是“智能”本身——即机器人是否真正具备了足够的智能水平来完成复杂任务。


以 AI “六小龙” 为代表的大模型公司在 DeepSeek 出现之前,普遍获得了较高的市场估值。而随着 DeepSeek 的出现,市场对这些公司的价值判断发生了显著变化。具身智能领域也将经历类似过程:在没有出现类似 GPT-1 或 DeepSeek 级别的技术突破之前,各家公司的价值判断并不清晰,融资时也容易获得较高的溢价。但一旦出现颠覆性的技术突破,整个行业的格局将发生深刻变化,具身机器人是一个未来变化空间巨大、充满未知的领域。


五、从实验室到产业化:

机器人产品化的关键跃迁


我认为具身机器人是未来十年、二十年科技领域最大的机会。其潜在市场规模甚至可能超过汽车行业,因为它的数量级可接近人口数量,同时单价也较高,因此是一个极具商业价值的赛道。


从技术角度看,目前最大的瓶颈之一是训练数据的缺乏。要推动具身机器人技术的发展,必须在数据获取和处理方面取得突破。在产品层面,有两个核心问题亟待解决:


 

任务泛化能力:我们并不期望机器人能完成所有任务,但至少要在限定任务中具备一定的通用性。例如,在抓取任务中,不能只适用于特定形状的物体,而应能应对多种形状;在执行任务时,除了抓取,还应能完成拧、摇等操作,从而实现任务层面的通用性。


 

场景泛化能力:即机器人在一个特定环境中表现良好,是否也能适应其他环境?这是另一个关键挑战,因为从原型到产品的转化过程中,稳定性与成功率是关键指标,例如实验室中我们可能尝试了 10 次,成功 1 次即可展示成果,但在真实应用中,系统必须具备高稳定性与高成功率。


另一个核心挑战是机器人操作能力(Manipulation),也尚未被解我们可以将机器人的能力分为两类:移动能力与操作能力。对于人类而言,真正创造价值的是操作能力。移动能力在教育、巡逻、展示等场景中确实有其价值,但更多体现在演示或辅助层面,而真正能带来产业价值和经济回报的,是机器人在操作任务上的智能表现。


 

移动能力目前机器人的“移动能力”已经取得了不错的进展,像国内的宇树科技在这方面做得就很好,还有待提升的是避障能力。例如宇树在春晚表演时仍需要人工遥控,正是因为其避障系统还不够完善。但总体而言,我认为移动能力已经处于一个相对成熟的技术阶段。


 

操作能力相比之下,机器人的“操作能力”仍然存在较大挑战。机器人拥有类似“大脑”的系统,负责接收指令、任务规划、更新操作并收集反馈,同时还有一个类似“小脑”的模块,负责根据大脑指令,完成具体任务。然而,由于面对的物体和环境都非常多样,所以这里最大的挑战在于是否能在限定任务中实现一定的通用性,或者实现所谓的“场景泛化”——即在不同环境中都能稳定完成任务。


而目前的机器人在实际技术层面还没有达到理想状态,更多是在演示样例上表现良好。能录制出一段非常成功的演示视频,与在真实场景中稳定运行之间还存在很大差距。如果你去参加各种机器人展会,会发现一个现象:很多机器人只是静态展示,真正能动起来、能自主完成任务的机器人其实并不多。


六、VLA破局之路:数据和模型突破


机器人领域的核心技术路线是视觉语言动作模型(VLA),但端到端的 VLA 模型,需要非常多训练数据才能达到泛化能力,且容易受到视觉信号噪声的影响,比如光照变化和物体形状变化。从模型角度来看,这并不构成特别大的技术挑战,真正的问题在于数据规模远远不足。


目前机器人领域可获得的数据量大约在百万级别,而语言模型的数据规模已经达到万亿级别。如果通过远程遥控方式操作机器人并收集数据,这个过程非常缓慢。每条数据的采集成本也非常高,这对数据积累形成了很大限制。


现在有一项机器学习方法叫做“模仿学习”。如下图所示,我们可以通过专家示范的方式,获取机器人执行任务的轨迹数据,然后让 AI 学习这些轨迹。机器人跳舞之所以能做到非常自然,就是通过模仿学习实现的,不需要额外输入,只需模仿专家的轨迹即可,拳击动作的训练也使用了类似的方法,这项技术目前相对成熟。


大模型之后,机器人正在等待它的“GPT-1 时刻”


模仿学习


但这个机器学习方法只适合训练移动能力,不适合训练操作能力,所以机器人在操作任务上的能力仍然不够成熟,如果没有一个足够强大的基础模型(Finish Model),那么后续 AI 智能、Agent 智能等高级能力就很难真正体现出来。


大模型之后,机器人正在等待它的“GPT-1 时刻”
仿真环境和模拟器 - NVIDIA Omniverse Cloud 平台上的 Isaac Sim


因此,另一条可能的获取数据的路径是借助仿真器,通过仿真环境,机器人可以在虚拟世界中采集大量数据、进行反馈训练,从而提升其在现实环境中的表现。当我们在仿真环境中训练出初步模型后,再将其部署到真实场景中,结合真实数据,并通过强化学习进一步优化模型性能。


我认为解决机器人领域通用泛化的核心是找到新的 Scaling law,即数据和模型的突破。我们可能需要找到一种能够高效生成大量数据的方法,从而构建出高质量的数据集,训练出真正具备通用能力的机器人,达到接近人类操作水平的状态。这是我内心中一个相对可行的技术路径,但目前来看,这条路还没有真正走通。


七、如何在具身机器人的

“GPT-1时刻”来临前赢得先机?


最后,我想分享一些关于机器人商业化的思考。类比自动驾驶技术,自动驾驶的目标是从 A 点安全行驶到 B 点,不撞到障碍物即可,而机器人要完成的任务则更加复杂和多样化。一个关键区别在于,因为汽车本身就有价值,我们只是让它变得更智能一点。但机器人不同,它本身并没有“保有量”的基础,必须自身具备独立价值,才能被市场接受。

具身机器人本身具有巨大的商业潜力,甚至可能是未来最大的商业机会之一,但与此同时它所面临的挑战也非常巨大。最终能够在通用机器人领域胜出的,在通用机器人领域取得成功的企业,不仅需要具备强大的 AI 能力,还需要在供应链管理和应用场景开发上拥有优势。除了能攻关具身智能 AI 大模型的团队外,一些基于工程方法和场景数据的团队也可能获得成功,只要找到好的切入场景,打造场景化技术是有机会的。

因此,我认为普通团队的好选择是,在更快闭环的场景构建硬件产品,并积累真实数据优势,在“GPT-1 时刻”来临前攒筹码,等待通用开源具身大模型的到来。“Scaling Law 不会偏爱任何赛道,它只奖励更早把数据到极限的人。”或许,这就是机器人时代的第一性原理。

大模型之后,机器人正在等待它的“GPT-1 时刻”

欢迎关注「腾讯云TVP」,期待你的「在看」~👇



版权声明:charles 发表于 2025年7月30日 am9:47。
转载请注明:大模型之后,机器人正在等待它的“GPT-1 时刻” | AI工具大全&导航

相关文章