AI走出数字世界,具身智能开启商业化浪潮

具身智能是未来实现通用人工智能的关键路径。当AI走出虚拟世界,拥有“身体”与物理交互能力——具身智能正掀起人工智能的第二次革命浪潮。谁能掌握人工智能、具身智能的核心技术与产业生态,谁就可能主导未来全球经济格局。

2025年,“具身智能”首次被写入中国政府工作报告,成为培育未来产业的核心任务。国内外科技巨头英伟达、OpenAI、腾讯、阿里、华为等竞相布局,特斯拉、Figure AI、智元机器人、宇树科技等厂商的人形机器人产品密集落地,宣告“AI具身化”时代正式启幕。

一、具身智能概述

(一)具身智能概念

具身智能(Embodied Intelligence)是一种融合了人工智能、机器人技术等多学科的前沿科技领域,是人工智能的下一个浪潮。根据中国计算机学会(CCF)的定义,具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。此前,人工智能主要以数字形式存在,缺乏视觉、触觉、听觉等感官体验,难以有效应对现实世界的各种情况。简单来说,具身智能就是给AI装上一个“身体”(比如机器人),让它不再只是生活在计算机里、处理数据和文字。它通过这个“身体”上的传感器(眼睛、耳朵等)去感知真实世界,然后像人类一样去理解周围的情况,做出决策,并驱动“身体”去行动、完成任务。具身智能让AI真正走进现实,能应对各种实际场景,被看作是通往更通用、更强大的人工智能(AGI)的关键一步。2024年被称为具身智能的“元年”,英伟达首席执行官黄仁勋断言人工智能的下一波浪潮是具身智能。

具身智能可拆分为“具身”+“智能”,机器人是具身智能的主要应用场景。“具身”是指具有身体且可通过交互、感知、行动等能力来执行任务,按使用用途和场景的不同,具身智能可以有多种形态,包括各类智能机器人、自动驾驶等。机器人是具身智能的主要应用场景,其中人形机器人被认为是具身智能最理想的形态。“智能”是指物理实体可主动进行感知、理解、推理、决策、行动等任务。因此,可以通俗的将具身智能理解为就是将AI植入到各种物理身体(如机器人)上,让机器人等物体可以对周围环境变化做出感知,并且做出相应决策。与传统的工业机器人、协作机器人相比,具身智能更强调在环境中的交互能力,相较传统机器人,具身智能机器人有着智能化程度高、工作场景限制小、能够自主规划复杂工作的特点。总结起来,具身智能体必须同时具备三个核心要素:一个看得见摸得着的“身体”(本体),能与周围环境互动交流的能力(环境交互),以及能感知、思考、做决策的“大脑”(智能)。

图片

图1 具身智能的“三要素”概念示意图

资料来源:中国信通院。

(二)具身智能技术原理与路线

1、技术原理

具身智能本质上是为以机器人为代表的物理实体注入人工智能,使其能感知、学习并与环境动态交互。具身智能技术的发展经历从早期模块化AI算法集成向大模型驱动的统一技术框架的转变。早期,依靠集成多个“小模型”并辅以人工介入,依据场景或用途调用模型来完成任务,例如视觉层面借助目标检测算法识别物体,控制层面运用传统机器人学习技术让机器人自主决策,以此满足机器人应用需求,增添智能化元素。而大模型问世后,具身智能将各模块功能整合进统一框架,借助大模型的知识理解与表达能力,实现自然语言交互、多模态信息无感处理与转换,可统一处理多种感官信息,融合运动经验执行操作,在通用性与泛化性方面实现了重大突破。

资料来源:智元机器人。

具身智能技术体系通常可划分为“感知—决策—行动—反馈”四个核心功能模块,四者构成一个动态闭环系统。该系统通过与环境的持续交互,实现环境模型的构建与更新、自主决策制定、自适应行为执行,并基于经验反馈实现学习与进化。

——感知模块。基于多模态传感器融合(视觉、听觉、触觉、力觉、本体觉等)采集环境信息,利用深度学习模型实现跨模态融合与联合表征,构建对环境的时空-语义统一认知。视觉负责目标检测、场景理解与行为预测;听觉支持语音指令解析与声源定位;触觉与力觉反馈用于抓取控制、材质识别与交互安全。感知结果不仅提供状态输入,也为决策模块提供可解释的语义与几何信息。

——决策模块。作为具身智能的“认知中枢”,负责解析感知信息并生成高层任务规划与低层动作策略。当前主流路径正从传统规则引擎与符号规划,转向基于大模型的数据驱动决策。系统综合任务目标、环境约束与历史经验,通过分层决策架构输出可执行策略,并结合强化学习或模型预测控制实现实时动态调整。

——行动模块。将决策转化为物理操作,涵盖移动导航与抓取操作。移动系统依赖路径规划与运动控制实现避障与位姿调整;操作系统通过轨迹规划与柔顺控制实现精准交互。系统结合视觉伺服、力觉反馈等进行闭环调节,确保动作精准、安全、稳定。

——反馈模块。通过闭环学习驱动系统进化。采集动作效果、环境响应等数据,利用强化学习、模仿学习或在线微调技术优化策略参数、更新模型权重。支持经验回放、技能抽象与迁移,实现持续自适应迭代,提升任务执行的鲁棒性与通用性。

2、技术路线

具身智能的技术路线主要涵盖算法方案、训练方法以及数据采集三个方面,具体如下。

具身智能的算法方案可分为分层决策模型和端到端模型两种路线。目前分层决策模型更受青睐,但业界普遍认为,从长远看,随着数据积累和算法进步,端到端模型是未来实现更高水平通用智能(AGI)的重要方向。

分层决策模型:被业界形象地称为“大脑-小脑”架构。以Figure 01(与OpenAI合作)为代表,将任务划分为不同层级,运用多个神经网络分别训练,再通过流程管线组合。顶层通常是一个大型多模态模型,负责高级认知、任务规划和语言理解,扮演“大脑”角色;中间层是更专注的策略网络,负责将高层指令转化为具体的运动序列并生成动作指令,如同“小脑”;底层机器人本体接收指令执行具体的电机控制。分层模型的优势在于各模块功能明确,可解释性、可维护性和调试性相对较好。然而,传统模块化架构存在信息传递延迟、模块间耦合问题和算法迭代不同步的缺陷,是分层模型需要着力解决的问题。

端到端模型:旨在用一个统一的神经网络直接从原始传感器输入(如摄像头图像)映射到最终的输出(如驾驶轨迹或机器人动作),省去了中间独立的感知、决策、规划模块,实现一体化决策。以谷歌的RT-2为代表,借助一个神经网络实现从任务目标输入到行为指令输出的全过程。先在大规模互联网数据上预训练视觉语言模型,而后在机器人任务上微调,结合机器人动作数据,推出VLA(视觉-语言-动作)模型。端到端模型的优势在于简化系统架构,提高运行效率,并能减少模块间误差积累,但依赖海量高质量数据进行VLM大模型预训练,计算资源消耗巨大,且机器人执行实时性通常欠佳。

具身智能的训练方法可分为模仿学习和强化学习两种路线。在实际的研发中,纯粹的模仿学习或强化学习都难以独立支撑复杂的具身智能任务。目前的主流趋势是将两者结合,取长补短,形成更高效的训练范式。

模仿学习:智能体通过观察和模仿专家(如经验丰富的人类操作者或高性能系统)的行为来学习任务。其优势在于能快速学习专家策略,无需复杂探索;劣势是学习到的行为策略受限于专家数据,对未见过的情况泛化能力弱。

强化学习:智能体与环境交互,以最大化某种累积奖励的方式学习最佳行为策略。优点是可通过探索环境学习未知策略,能处理高度不确定和动态变化的环境;缺点是需要大量探索和试错,学习过程缓慢,且对于复杂任务,设计合适的奖励函数难度较高。

具身智能的数据采集可分为基于仿真环境数据和基于真实世界数据两种路线。目前业界逐渐形成共识,采用 “仿真数据为主,真实数据为辅” 的训练模式。

基于仿真环境的数据采集(Sim2Real):在仿真环境中学习技能和策略,再迁移到现实世界。优势是数据可大规模获取,成本低;劣势是对仿真器要求高,仿真环境与真实世界有差异,迁移过程中性能会下降。

基于真实世界数据采集:直接从现实世界数据中学习,包括本体采集、遥操作(人远程控制机器人执行任务)、动态捕捉、视频学习等方式。优点是数据更真实可靠;缺点是数据少、泛化性差,通过机器本体和人采集,成本高、难度大、效率低。

(三)具身智能发展历程

具身智能产业历经概念萌芽、理论发展、技术突破等发展阶段,现正逐步走向产业应用。

概念萌芽(1950S-1990S):1950年图灵探讨机器能否思考,提出人工智能两条发展路径,后逐渐形成离身智能和具身智能。1956年AI概念诞生,符号主义主导早期AI发展,连接主义随后兴起,但两者在处理复杂任务时局限性显现。1980年代行为主义AI发展,主张通过身体与环境交互产生智能。这一时期“具身”机器人进行早期实验,如1954年麻省理工学院生产首台可编程机械臂,1960年首台工业机器人Unimate投入使用,开启具身智能探索。

理论发展(1990S-2022):AI三大学派从分立研究走向综合,为具身智能发展奠定基础。行为主义反思计算智能局限,推动以“底层智能”为基础的研究。底层数学理论的深耕使AI算法取得突破,深度强化学习、模仿学习、形态计算等理论及算法模型快速发展。“具身”机器人快速发展,如1999年日本索尼推出犬型机器人爱宝,2002年丹麦iRobot公司推出家用扫地机器人Roomba,2009 年后波士顿动力Atlas,2013年后无人机/无人驾驶快速发展,均属该阶段代表产品。

技术突破(2022-至今):2022年底ChatGPT引爆大模型浪潮,为具身智能带来巨大潜力。大模型提升机器人语言交互、环境感知和任务决策等能力,如2023年的VoxPoser模型利用ChatGPT分解任务步骤,PaLM-E将传感器模态融入大语言模型,显著增强机器人高层推理与指令泛化能力。2024年起人形机器人集中落地,特斯拉、Figure AI、优必选、宇树科技、智元机器人等国内外重点企业推出人形机器人产品,并进入汽车工厂、巡检、物流等场景进行实测,标志着“大模型+本体”开始从实验室走向产线,其他形态本体也显现智能升级趋势。

如今,具身智能作为人工智能的重要分支,在多领域展现潜力,正逐步走向产业应用,受到科技界和产业界的广泛关注,微软、谷歌、英伟达等科技巨头以及高等学府开展相关研究。2024年,具身智能作为人工智能发展的一个重要分支,成为科技界的新风向标,人形机器人等具身智能产品开始成为明星产品,受到市场追捧,产业应用进程加快。

二、具身智能应用领域

具身智能从根本上拓展了人工智能的应用边界。在当今科技驱动产业变革的时代背景下,具身智能有望广泛渗透至工业制造、自动驾驶、物流运输、家庭服务、医疗康养等多个关键领域,支撑各行业的智能化转型。

——工业制造领域。具身智能为工业制造业智能化升级提供支持,使机器人从“能动”转变为“能干活”。在实际生产中,具身智能变革人机协作模式,打破人机交互的语义隔离。人类能以自然方式与机器人沟通,机器可理解人类意图并提前做出安全控制动作。同时,具身智能工业机器人可替代人类成为柔性执行机构,实现智能化柔性制造,自动更新决策和优化行动,降低人工干预程度,提高生产效率和制造精度。

——自动驾驶领域。具身智能通过融合感知、决策和执行功能,提升自动驾驶系统性能,实现安全可靠驾驶。无人驾驶出租车属于典型的具身智能应用之一,通过多模态传感器(激光雷达、毫米波雷达、摄像头等)收集数据,完成环境感知,用自研大模型/强化学习做任务决策,再把决策转化为转向、制动、加速等物理动作,形成完整的“感知-决策-行动-反馈”闭环。目前全球无人驾驶出租车Robotaxi业务以美国的特斯拉、谷歌旗下的Waymo和国内百度的“萝卜快跑”为代表,截止2025年5月“萝卜快跑”已在15城完成1100万单公开出行,其他国内企业如小马智行、滴滴、T3出行、曹操出行、享道等平台也正在推进。

——物流运输领域。当前具身智能在物流运输领域的应用已从技术验证阶段迈入规模化落地初期,形成了以仓储为核心、向装卸与末端配送延伸的应用格局,电商物流龙头企业加快试点推广。例如,亚马逊测试的Digit人形双足机器人,可完成卸载货车、搬运箱子等多项任务。京东物流近期推出“超脑大模型2.0”与“异狼具身智能机械臂系统”,推动大模型与“狼族”智能设备互联,构建多机协同的智能物流系统。在仓储、分拣与装卸领域,AMR物流机器人头部企业(如极智嘉、海康机器人、快仓、国自、立镖等)加快其产品向泛化智能升级,对整机的感知-决策-执行链路做彻底重构,依托多模态感知、端侧小模型+云端大模型支持自主生成路径与任务序列。仓储AMR与人形机器人混编应用也正在推进,智元机器人等人形机器人头部企业加速开发智能物流应用解决方案。

——家庭服务领域。具身智能有望推动家庭服务机器人朝着全场景智能助手方向发展,逐步实现定制化服务能力的升级。从基础扫地机器人到多功能机器人,再到未来具备通用交互能力的具身智能机器人,其功能边界持续拓展,场景适配性显著提升。如1X Technologies(获得OpenAI战略投资)推出的EVE人形轮式机器人,融合OpenAI的AI模型,通过VLA(视觉-语言-动作模型)、多模态感知提升自然语言理解和自主任务执行能力,适用于护理老人、家庭保姆、仓储物流等领域。一些机器人已能模拟人类执行多种家务,如谷歌和斯坦福联合推出的Mobile ALOHA2已展示备菜、翻炒、出锅、洗衣、浇花等20余种家务操作能力;星尘智能的Astribot S1可执行叠衣服、物品分类、烹饪、吸尘、叠杯子等活动。此外,像日本的LOVOT机器人主打情感陪伴功能,满足人类情感需求。

——医疗康养领域:具身智能成为应对老龄化挑战、提高医疗服务质量的关键技术,应用于医疗诊断、手术操作与介入、专科辅助诊疗、康复训练、功能代偿辅助、医疗护理、情感陪伴等多个场景。在诊断环节,通过实体设备的多模态数据采集能力,为AI模型提供动态、全面的临床数据,再结合AI对医学影像的智能分析辅助医生准确诊断;在手术环节,目前达芬奇等手术机器人可辅助医生进行远程手术,可凭借毫米级操作精度与术中动态避障能力,实现微创化手术操作;在康复领域,智能康复设备通过肌电感知、视觉追踪等技术捕捉患者运动状态,可个性化调整物理治疗方案

三、具身智能商业化路径

数据是具身智能发展的核心,数据驱动产业发展。在2022 年以前的小模型时代,算法的数量和质量对于机器人重要性更强,因为模型性能会随着训练次数的增加而趋于饱和,甚至出现过拟合的情况,需要通过算法调整找到最佳配置以规避性能下降。但进入大模型时代后,Scaling Law(缩放定律)明确显示,增加数据量可驱动模型性能持续提升,数据的核心地位彻底凸显。

具身智能获取数据的关键在于实现商业化落地。区别于大模型可以从网络中获取数据并进行训练,具身智能如果想要具备高泛化性和可靠性,底层模型的训练还需依赖物理世界的精确数据,而这类数据存在获取难、成本高、标注难的特点,也使得其产业进程远慢于语言模型。获取真实物理世界的数据的关键就在于商业化落地,具身智能企业普遍把“先把机器人卖出去/用起来”当成破局手段,只有商业化落地,才能形成“卖设备→现场运行→自动回传→模型迭代→性能提升→再卖设备”的数据闭环。

根据1X副总裁Eric Jang《All Roads Lead to Robotics》一文,目前具身智能的商业化路径主要包括三种:通用场景软硬结合、软件路径,以及垂直领域软硬结合。

——通用场景软硬结合

通用路线技术颇具挑战性,其商业模式为向B端或C端出售具备智能功能的完整机器人。此通用技术路径的关键在于运用通用的软硬件来应对多样且变化的使用场景,为此,一方面需开发可重构的硬件,以实现快速调整以适配不同任务需求;另一方面要设计能适配不同硬件配置与外围设备的通用软件,保障其在各类硬件上顺畅运行,1X、Figure以及特斯拉皆采用此路径。

——软件路径

软件路径可助力机器人快速部署与迭代,其主流商业模式为向硬件厂商或综合型厂商开放API接口。该路径的关键在于研发Cross-Embodiment Foundation Model(跨实体基础模型,简称CEF),通过这一模型实现跨硬件平台的无缝兼容——机器人硬件厂商只需接入所提供的API接口,即可为设备搭载标准化的机器人“大脑”。这一模式能彻底打破传统机器人开发的局限:过去各硬件平台需单独搭建软件开发流程,而如今开发者编写一次代码,便可在多种硬件上部署运行。无论是精密的人形机器人、高效的轮式机器人,还是灵活的无人机,均能共享同一套软件架构,不仅大幅节省开发时间与成本投入,还能随着机器人大规模部署,使软件的边际成本逐步趋近于0。

——垂直领域软硬结合

在垂直领域,软硬一体可把采集、压缩、加密、预处理全部写进 ASIC 或 FPGA芯片,数据只在片内流转,外部 API 读不到原始信号,有助于积累细分数据方面的竞争壁垒。高工机器人产业研究所(GGII)所长卢瀚宸在2024中国人形机器人技术应用峰会上强调,从长远来看,具备高壁垒的核心硬件将极具优势。在机器人领域,硬件与数据存在天然的强绑定关系,企业可通过定制化处理器、专属通信接口等核心硬件,精准收集并处理对机器人性能起决定性作用的特定数据,这类数据因与硬件深度适配,往往难以被竞争对手复制。同时,硬件与软件的紧密集成能形成高度优化的协同系统,既提升数据采集的实时性与精准度,又加快数据处理效率,进一步强化数据壁垒的不可替代性。

四、具身智能市场概况

具身智能市场规模不断扩大,中国占比将持续提升。随着核心技术的持续突破与产业链协同能力的增强,中国及全球具身智能市场正步入高速增长轨道。根据第二届中国人形机器人与具身智能产业大会发布的《2025人形机器人与具身智能产业研究报告》显示,2025年全球具身智能市场规模预计达195.25亿元,至2030年预计将攀升至2326.3亿元,期间复合年增长率(CAGR)高达64.18%。其中,中国市场的表现尤为突出,2025年规模预计达52.95亿元,占全球总体规模的27%,到2030年,中国具身智能市场规模将达到1037.52亿元,约占全球44.6%。根据国务院发展研究中心发布的《中国发展报告2025》显示,当前中国具身智能产业发展处于起步期,在具身智能大模型研发和产品制造方面具有较好基础,市场规模有望在2030年达到4000亿元,在2035年突破万亿元。

查看更多 >>

推荐新闻

微信咨询
联系电话
18719131024
返回顶部