未来信息：大模型赋能具身智能市场发展（70页报告）

来源: | 购买报告：136-997-996-97微信 | 发布时间: 2025-11-19 | 117 3612次浏览 | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

本文为节选内容

如需更多报告，联系客服

或扫码获取报告

大模型能够成为人形机器人“大脑”，赋予任务级交互、环境感知、任务规划和决策控制能力。在大模型出现之前，人形机器人定位导航和路径规划技术普遍基于预设路径方式，基于决策树或状态机构建的算法模型普遍遵循参数模型化思路，适应能力很差，只能实现固定位置移动和操作，人形机器人难以实现商业化落地。而以大模型为核心的“大脑”技术，能够为人形机器人提供任务级交互、环境感知、任务规划和决策控制能力，实现智能化与通用性跃升：

1）任务交互：基于大模型的语言/视觉运行处理方式可为人形机器人提供任务级交互入口；

2）环境感知：大模型通过对多模态信息的统一处理与灵活转换，推动多模态感知泛化；

3）任务规划：大模型潜在的真实世界知识学习能力、强大的思考、推理和生成能力为“大脑”的任务规划提供基础；

4）决策控制：人形机器人基于大模型技术并优化奖励策略，通过整合环境、运动等多样化信息，实现决策控制功能。

大模型可分为非具身大模型和具身大模型两类，两者核心区别在于能否直接生成运动姿态。当前非具身大模型应用较为成熟，端到端、多模态具身大模型是未来发展方向，AGI为终极目标：

非具身大模型：可帮助机器人提升复杂任务理解、连续对话、零样本推理等方面能力，但无法直接生成运动姿态。非具身大模型主要包括LLM（大语言模型）和VLM（视觉语言模型），以ChatGPT、GPT-4V、Sora、GPT-4o为代表，主要特点是输入从单模态文本扩展到多模态的语音、图像、视频，其输出也包括文本、音频、图像、视频等。非具身大模型能够对用户指令进行推理分解，实现任务规划决策，但无法直接生成运动姿态，目前应用较为成熟。例如，微软利用ChatGPT的自然语言理解能力，将人类语言指令转化为机器人控制代码，从而实现任务规划和自主执行。

具身大模型：直接面向机器人，高频输出执行动作。具身大模型则直接面向机器人，核心特点对物理世界的感知或接收人类指令后，机器人能够直接高频输出动作。自动驾驶大模型是最典型的代表，汽车通过实时接收视觉信号（主要是图像）的输入，可以直接控制汽车方向盘、踏板等机构，实现自动驾驶功能。机器人作为更复杂的物理系统，机器人具身大模型的输入不仅包括实时视觉信号，还涉及到人类语言、触觉等多种模态，其动作空间的自由度也更高，还需要全身各部位（底盘、腿、手臂、手指等）的协同运动。例如，谷歌推出的VLA（视觉-语言-动作模型）RT-2，在VLM基础上增加运动控制，将网络预训练知识迁移至机器人控制，用视觉和语言指令直接生成机器人动作代码，解决机器人运动轨迹决策问题。

AGI为终极目标，机器人将真正成为跨任务通用智能体。根据智元机器人发布的具身智能技术路线图，具身智能技术发展可分为G1-G5五个阶段，其中G5是AGI（通用人工智能）终极形态。G1-G4阶段，逐步从人工编程的单一场景演进为数据驱动的通用智能，核心趋势是“人工规则→数据驱动”、“专用→泛化”、“碎片模型→统一模型”。而G5阶段打破传统分层架构，认知与操作模型深度融合为统一AGI系统，具备三大能力跃升：1）从“多模型协作”变为“单模型闭环”，直接通过感知生成决策与动作；2）从“被动执行”转向“主动理解”，可解析抽象意图并自主分解目标；3）从“有限泛化”到“无限适应”，通过持续进化应对未知场景，实现人机协作共创。G5标志着机器人从“功能体”进化为“智能体”，开启真正的通用智能时代。

DeepSeek低成本范式或将打破算力桎梏，加速机器人AGI时代到来。DeepSeek R1创新训练方法，直接将强化学习（RL）应用于基础模型，使用数据蒸馏技术（Distillation）生成高质量数据，提升训练效率。DeepSeek R1在数学、代码、自然语言推理等任务上的性能，可以比肩OpenAI o1模型正式版，而所耗用的资源仅为OpenAI的不到十分之一，极大节约训练算力成本。DeepSeek的低成本大模型训练策略有望加速机器人AGI时代到来：1）云端：打破先进算力桎梏，提高现有训练算力利用效率，从而加速机器人大模型训练进程；2）端侧：将大模型压缩为适合端侧部署的小模型，高效利用端侧算力，提升机器人通用能力表现。

当前人形机器人板块呈现巨头入局、新秀涌入、国产崛起、政策助力四大趋势，产业趋势正在不断强化。

巨头入局：特斯拉于2021年8月发布Tesla Bot概念机，开始布局人形机器人研发；英伟达于2024年3月发布人形机器人通用基础模型Project GR00T，全面发力人形机器人领域；华为于2024年11月启动具身智能创新中心，正式入局具身智能；2024年12月，豆包的爆火引燃市场对于字节机器人的热情。展望2025年，更多科技巨头有望入场，形成持续共振，不断强化产业趋势。

新秀涌入：在特斯拉龙头示范效应与ChatGPT推出双重驱动之下，2023年开始，国内外人形机器人初创企业数量显著增长，整机产品百花齐放；2024H2起，车企加速入局，正在成为人形机器人赛道“新势力”。展望2025年，更多新面孔有望登场，科技巨头与新势力共舞，共同形成大趋势。

国产崛起：宇树以B2-W轮足机器狗亮眼运动能力开始破圈，凭借H1双足机器人春晚扭秧歌节目现象级传播实现国民级认知，成为国产人形机器人关注焦点。展望2025年，更多国产人形机器人厂商有望迎来全新技术突破，以亮眼进展出圈，形成市场认知度。

政策助力：2023年11月，工信部发布《人形机器人创新发展指导意见》，提出人形机器人有望成为继计算机、智能手机、新能源汽车后的颠覆性产品，当前人形机器人技术加速演进，已成为科技竞争的新高地、未来产业的新赛道、经济发展的新引擎。北京、上海、深圳、杭州、安徽等地方政府先后发布产业发展行动计划，推动人形机器人技术和产业高水平发展。2025年3月5日，政府工作报告中提到，培育具身智能等未来产业，大力发展智能机器人等新一代智能终端以及智能制造装备。

大模型驱动人形机器人智能化跃迁，AGI为终极目标。大模型已成为人形机器人“大脑”的核心技术底座，推动其从预设路径的机械执行向通用智能跃升。传统机器人依赖决策树或状态机模型，适应能力受限，而大模型通过四大能力突破实现智能化升级：1）任务交互：基于语言/视觉的多模态入口，支持自然指令理解与响应；2）环境感知：融合多模态信息，提升复杂场景泛化能力；3）任务规划：依托大模型推理与知识迁移能力，自主拆解复杂任务；4）决策控制：整合环境与运动信息，优化动作策略。技术路径上，非具身大模型聚焦任务分解与规划，而具身大模型直接输出高频运动指令，终极形态指向AGI（通用人工智能）——通过单模型闭环实现主动理解与无限适应。DeepSeek创新“强化学习+数据蒸馏”的低成本训练范式，算力消耗仅为OpenAI的1/10，突破算力瓶颈，加速AGI在云端训练与端侧部署的落地。

巨头入局与国产崛起共振，政策加码驱动商业化加速。人形机器人产业呈现四大趋势强化：1）巨头入局：特斯拉（Optimus）、英伟达（GR00T）、华为（具身智能中心）、字节（豆包机器人）等科技龙头加速布局，2025年或形成技术共振；2）新秀涌入：初创企业（Figure、1X）与车企（小米、小鹏、赛力斯等）双向发力，产品迭代提速；3）国产崛起：宇树（H1双足机器人）、智元（远征A2）等技术突破带动国产认知度提升，2025年或迎量产关键节点；4）政策助力：工信部《人形机器人创新发展指导意见》明确其战略地位，北上深等地方政府密集出台产业扶持政策，2025年政府工作报告首次将“具身智能”纳入未来产业培育范畴。

电话：13699799697（微信）

邮箱：cheyanzixun@163.com

地址：深圳市龙岗区龙岗街道银威路6号满京华喜悦里