未来信息:大模型赋能具身智能市场发展(70页报告)
来源: | 购买报告:136-997-996-97微信 | 发布时间: 2025-11-19 | 84 3612次浏览 | 🔊 点击朗读正文 ❚❚ | 分享到:

本文为节选内容

如需更多报告,联系客服

或扫码获取报告


大模型能够成为人形机器人“大脑”,赋予任务级交互、环境感知、任务规划和决策控制能力。在大模型出现之前,人形机器人定位导航和路径规划技术普遍基于预设路径方式,基于决策树或状态机构建的算法模型普遍遵循参数模型化思路,适应能力很差,只能实现固定位置移动和操作,人形机器人难以实现商业化落地。而以大模型为核心的“大脑”技术,能够为人形机器人提供任务级交互、环境感知、任务规划和决策控制能力,实现智能化与通用性跃升:

1)任务交互:基于大模型的语言/视觉运行处理方式可为人形机器人提供任务级交互入口;

2)环境感知:大模型通过对多模态信息的统一处理与灵活转换,推动多模态感知泛化;

3)任务规划:大模型潜在的真实世界知识学习能力、强大的思考、推理和生成能力为“大脑”的任务规划提供基础;

4)决策控制:人形机器人基于大模型技术并优化奖励策略,通过整合环境、运动等多样化信息,实现决策控制功能。

大模型可分为非具身大模型和具身大模型两类,两者核心区别在于能否直接生成运动姿态。当前非具身大模型应用较为成熟,端到端、多模态具身大模型是未来发展方向,AGI为终极目标:

非具身大模型:可帮助机器人提升复杂任务理解、连续对话、零样本推理等方面能力,但无法直接生成运动姿态。非具身大模型主要包括LLM(大语言模型)和VLM(视觉语言模型),以ChatGPT、GPT-4V、Sora、GPT-4o为代表,主要特点是输入从单模态文本扩展到多模态的语音、图像、视频,其输出也包括文本、音频、图像、视频等。非具身大模型能够对用户指令进行推理分解,实现任务规划决策,但无法直接生成运动姿态,目前应用较为成熟。例如,微软利用ChatGPT的自然语言理解能力,将人类语言指令转化为机器人控制代码,从而实现任务规划和自主执行。

具身大模型:直接面向机器人,高频输出执行动作。具身大模型则直接面向机器人,核心特点对物理世界的感知或接收人类指令后,机器人能够直接高频输出动作。自动驾驶大模型是最典型的代表,汽车通过实时接收视觉信号(主要是图像)的输入,可以直接控制汽车方向盘、踏板等机构,实现自动驾驶功能。机器人作为更复杂的物理系统,机器人具身大模型的输入不仅包括实时视觉信号,还涉及到人类语言、触觉等多种模态,其动作空间的自由度也更高,还需要全身各部位(底盘、腿、手臂、手指等)的协同运动。例如,谷歌推出的VLA(视觉-语言-动作模型)RT-2,在VLM基础上增加运动控制,将网络预训练知识迁移至机器人控制,用视觉和语言指令直接生成机器人动作代码,解决机器人运动轨迹决策问题。

AGI为终极目标,机器人将真正成为跨任务通用智能体。根据智元机器人发布的具身智能技术路线图,具身智能技术发展可分为G1-G5五个阶段,其中G5是AGI(通用人工智能)终极形态。G1-G4阶段,逐步从人工编程的单一场景演进为数据驱动的通用智能,核心趋势是“人工规则→数据驱动”、“专用→泛化”、“碎片模型→统一模型”。而G5阶段打破传统分层架构,认知与操作模型深度融合为统一AGI系统,具备三大能力跃升:1)从“多模型协作”变为“单模型闭环”,直接通过感知生成决策与动作;2)从“被动执行”转向“主动理解”,可解析抽象意图并自主分解目标;3)从“有限泛化”到“无限适应”,通过持续进化应对未知场景,实现人机协作共创。G5标志着机器人从“功能体”进化为“智能体”,开启真正的通用智能时代。

DeepSeek低成本范式或将打破算力桎梏,加速机器人AGI时代到来。DeepSeek R1创新训练方法,直接将强化学习(RL)应用于基础模型,使用数据蒸馏技术(Distillation)生成高质量数据,提升训练效率。DeepSeek R1在数学、代码、自然语言推理等任务上的性能,可以比肩OpenAI o1模型正式版,而所耗用的资源仅为OpenAI的不到十分之一,极大节约训练算力成本。DeepSeek的低成本大模型训练策略有望加速机器人AGI时代到来:1)云端:打破先进算力桎梏,提高现有训练算力利用效率,从而加速机器人大模型训练进程;2)端侧:将大模型压缩为适合端侧部署的小模型,高效利用端侧算力,提升机器人通用能力表现。

当前人形机器人板块呈现巨头入局、新秀涌入、国产崛起、政策助力四大趋势,产业趋势正在不断强化。

巨头入局:特斯拉于2021年8月发布Tesla Bot概念机,开始布局人形机器人研发;英伟达于2024年3月发布人形机器人通用基础模型Project GR00T,全面发力人形机器人领域;华为于2024年11月启动具身智能创新中心,正式入局具身智能;2024年12月,豆包的爆火引燃市场对于字节机器人的热情。展望2025年,更多科技巨头有望入场,形成持续共振,不断强化产业趋势。

新秀涌入:在特斯拉龙头示范效应与ChatGPT推出双重驱动之下,2023年开始,国内外人形机器人初创企业数量显著增长,整机产品百花齐放;2024H2起,车企加速入局,正在成为人形机器人赛道“新势力”。展望2025年,更多新面孔有望登场,科技巨头与新势力共舞,共同形成大趋势。

国产崛起:宇树以B2-W轮足机器狗亮眼运动能力开始破圈,凭借H1双足机器人春晚扭秧歌节目现象级传播实现国民级认知,成为国产人形机器人关注焦点。展望2025年,更多国产人形机器人厂商有望迎来全新技术突破,以亮眼进展出圈,形成市场认知度。

政策助力:2023年11月,工信部发布《人形机器人创新发展指导意见》,提出人形机器人有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,当前人形机器人技术加速演进,已成为科技竞争的新高地、未来产业的新赛道、经济发展的新引擎。北京、上海、深圳、杭州、安徽等地方政府先后发布产业发展行动计划,推动人形机器人技术和产业高水平发展。2025年3月5日,政府工作报告中提到,培育具身智能等未来产业,大力发展智能机器人等新一代智能终端以及智能制造装备。

大模型驱动人形机器人智能化跃迁,AGI为终极目标。大模型已成为人形机器人“大脑”的核心技术底座,推动其从预设路径的机械执行向通用智能跃升。传统机器人依赖决策树或状态机模型,适应能力受限,而大模型通过四大能力突破实现智能化升级:1)任务交互:基于语言/视觉的多模态入口,支持自然指令理解与响应;2)环境感知:融合多模态信息,提升复杂场景泛化能力;3)任务规划:依托大模型推理与知识迁移能力,自主拆解复杂任务;4)决策控制:整合环境与运动信息,优化动作策略。技术路径上,非具身大模型聚焦任务分解与规划,而具身大模型直接输出高频运动指令,终极形态指向AGI(通用人工智能)——通过单模型闭环实现主动理解与无限适应。DeepSeek创新“强化学习+数据蒸馏”的低成本训练范式,算力消耗仅为OpenAI的1/10,突破算力瓶颈,加速AGI在云端训练与端侧部署的落地。

巨头入局与国产崛起共振,政策加码驱动商业化加速。人形机器人产业呈现四大趋势强化:1)巨头入局:特斯拉(Optimus)、英伟达(GR00T)、华为(具身智能中心)、字节(豆包机器人)等科技龙头加速布局,2025年或形成技术共振;2)新秀涌入:初创企业(Figure、1X)与车企(小米、小鹏、赛力斯等)双向发力,产品迭代提速;3)国产崛起:宇树(H1双足机器人)、智元(远征A2)等技术突破带动国产认知度提升,2025年或迎量产关键节点;4)政策助力:工信部《人形机器人创新发展指导意见》明确其战略地位,北上深等地方政府密集出台产业扶持政策,2025年政府工作报告首次将“具身智能”纳入未来产业培育范畴。