四个大模型叠加，机器人进入现实将像“打游戏”一样简单？

近日，关于达闼机器人大幅裁员的消息在各大社群流传，不少言论曝出该公司可能存在严重的资金链断裂风险。

达闼机器人作为机器人业界老牌的人形机器人与服务机器人企业，曾经有过许多辉煌的历史，技术实力位于人形机器人行业前列。其是否存在资金与融资问题可能依然需要时间检验，但在技术上，达闼目前的产品能力与技术实现方法，依然超越大多数PPT公司，值得关注和学习。

▍强大的RobotGPT

6月达闼全栈自研人形双足机器人XR4“七仙女”加速进化，但达闼更强的能力在于系统架构。今年开年，机器人多模态具身大模型算法RobotGPT正式通过了国家互联网信息办公室深度合成服务算法备案，此消息在国内外引起较大轰动。我国政府对人工智能技术的关注度一直处于升温状态，特别是对于生成式算法的法规标准化，步伐正在逐步加快。2022年12月，国家网信办、工信部、公安部联合出台了《互联网信息服务深度合成管理规定》，对深度合成技术作出规范，并规定从2023年1月10日起实施。这也是我国首部针对深度合成服务的专门性规章。

RobotGPT多模态具身大模型作为国内首个通过备案的机器人具身智能大模型，标志着我国在机器人人工智能和算法落地层面迈出一大步。作为国内首家在具身智能领域推出大模型的科技公司，不可否认，达闼机器人有着深厚的技术积累，在自然语言处理、机器学习等领域取得了卓越的成果。

就像是网站没有备案无法对外运营一样，根据《互联网信息服务深度合成管理规定》，备案意味着该大模型正式得到国家层面的测试认可，并允许对外提供服务。在国内，这也是目前大模型能够上线提供外部服务的唯一渠道，RobotGPT是国内首个能适用于人形等各类机器人产品的具身大模型。此前人工智能大会，多台人形机器人所采用的正是达闼该套系统架构，标志着其系统级潜力。

具身智能是能理解、推理、并与物理世界互动的智能系统，是人工智能的下一个浪潮。具身智能中的智能体要以第一人称身份融入周边环境，拥有感知、认知、决策和行动的全面能力，像人类一样自主处理任务。而大模型的“通用认知性”可使具身智能机器人具备强大的特征学习和泛化能力，通过强大的云端计算支持，应对复杂任务及决策，进一步实现对任务场景的拆解和思维链能力，因此，大模型是具身智能机器人的不可或缺之选。

RobotGPT标志着从数据驱动到真正意义上“有形”（embodied）智能转变——即从传统桌面软件到更加移动、交互性强且接近生命体验方式运作方式转变。这就是RobotGPT多模态具身大模型所做的工作。

对比名单上的多个大模型，我们采访部分专家，总结了这个适用于机器人的具身大模型一些亮眼的独特点和优越性。简单来说，RobotGPT并非ChatGPT那种单一的大语言模型，该技术背后还涵盖或者说融合着几个关键模型，分别是大语言模型（LLM）、开放域检测视觉大模型（VLM）、机器人导航与抓取大模型（VNM）、基于深度强化学习专家小模型（MoE）。

大模型对于机器人有点像是大脑，这四个模型每一个都是学术界和产业界的前沿领域，而在我们看来，达闼更是将这四个大脑模型叠加整合，并在RobotGPT又形成了一套大脑+小脑+数字孪生的技术中间层框架。

▍问题与解决

有专家认为，达闼之所以要组合多个大模型，是因为如果机器人想要成为继电脑、智能手机之后的第三台物理世界“计算机”，就一定需要具备多模态感知能力，一个大模型远远不够。

例如人类家居等许多场景中，单一模型就很难实现所有工作。尤其是机器人这样一个复杂技术载体，想要真正自主化完成多任务，并逐步优化适应性和执行效率，最终将任务执行成功率提升到人类能够接受的范畴，就需要有一种更加综合解决问题的能力。而这些能力其实又可以分解为视觉、听觉、触觉、高级认知、自主决策以及复杂动作的规划能力，从而使其应对不断变化的任务需求，最终接近于人一样的“聪明”。

但是各个大模型的适用范围有所差异。而且由于大模型基本需要借助多个高性能、多核心CPU进行大量数据训练，这对于高性能GPU、大容量高速存储内存、高速网络都提出了非常高的要求。这也使得每个大模型非常依赖算力去归置信息，中国目前约有210个大模型进行着饱和式研发，冗余比较严重。

RobotGPT的做法并不是直接杀入大模型，而是在多个分布式大模型基础框架上，提出了一种借助虚拟空间归置信息的方式。这个方法简单来说，是建立一套云网端协同架构的操作系统，结合数字孪生技术，在云端智能框架下，可以反复调用多个成熟大模型，累加多模态的数据，并根据逻辑推理进行端到端的虚拟空间映射和建模。

这个步骤相当于在不同模型之间搭建了一个信息处理和整合的桥梁，双向进行自然语言与动作模型的端到端转化。如果更简单理解就是，机器人小脑采集现实数据形成指令串－即时上云仿真建模形成结构化场景－大模型计算场景需求并模拟得出结果－即时反馈给机器人进行实际动作执行。

能力的多样化是这套大模型框架带来的显著特征。这种集成化设计使得RobotGPT不只是一个简单地回答问题或者进行文本创作的AI系统，它实际上已经跨越到让机器人可以在真实世界中进行任务分解、自主导航、抓取物体等操作。当然，这种架构一方面可以减少对于算力的依赖，另一方面也展现了非常强的适应性和多任务处理能力，使得达闼这套大模型架构通用性非常强，可以说以更巧妙的路径实现了四两拨千斤的效果。

多模态机器人通用性也是这套大模型的独特优势。例如轮式和人形机器人，其实都可以采用这套大模型。因为达闼RobotGPT这套大模型架构下，首先会帮助机器人建立相应的数字孪生，利用深度强化学习技术来处理并整合来自各种传感器（如摄像头、麦克风）收集到的多种类型信息，并结合预训练大模型所提供的广泛知识库来做出决策。

随着机器人各类传感器采取即时性数据并通过预处理模块进行结构化，在数字孪生的基础上派生不同的基础模型，形成像是“游戏世界”一样的数字中间层。随后，RobotGPT基于数据在云端调用不同大模型进行训练和决策，决策结果再由数字孪生根据物理机器人能力特性进行适配以及行为模拟，最后派生生成出相应形态的肢体动作，这使得该模型能够实现对不同机器人机型的统一控制，同时限定条件任务下，执行成功率超过97%。

▍模型迭代路径解析

有专家表示，其实在具身智能概念提出之前，达闼机器人就曾提出，机器人本体未来需要用通用具身人工智能赋能的概念，并在此基础上提出了云网端的思路和架构。但在GPT展现出大模型强大的及时处理能力和涌现能力之前，传统的研究思路依然是小模型先验知识的泛化，让机器人只限定于一类或者某几种特定工作，云网端架构独特的端到端决策优越性并不明显。直到如今机器人结合了多个大模型以及5G通信能力，通过思维链拆解，即时传输数据量压力减小，对于任务信息的处理能力快速提升，这套通用具身人工智能的技术架构效果才得以真正体现。

因为传统小模型主要是针对场景处理较少的数据和动作，但大模型的差异在于新并行架构下，能通过大量的数据训练从而产生一定的涌现能力，因此展现出了高级认知和决策能力。在此基础上，所以机器人能做到复杂动作执行，场景通用性、方法性、鲁棒性也会更强，从而这能够使机器人处理复杂任务时更高效、更灵活，更好地适应周边环境和复杂工艺需求。尤其在多模态的复杂环境下，机器人需要处理的数据量呈几何暴涨，机器人的及时感知和决策能力就尤为重要。

当然，达闼这套大模型架构也经历了多个迭代过程。达闼最初的基础语音大模型主要是为了解决一些语言的理解和语言层面的生成能力，随后达闼发现，机器人需要更多与环境交互以完成任务，因此对于环境的感知和理解就显得尤为重要。为此，达闼又开始把一些视觉模型的数据注入大模型中来，从而提升了机器视觉理解和生成能力，帮助机器人能够更好地适应环境变化。

在机器人能够听见、看见后，想要执行动作并在某些固定场景的任务处理上有着强大的能力，就需要借助导航和抓取的大模型以及针对特定场景、任务的专家模型。为此，达闼通过强化学习的方式，在海睿双系统里将多个场景数据融入基础技术模型，从而增强了机器人对于特定任务的理解和执行能力。

由于机器人所在的物理世界数据样本很难像语言大模型一样轻松获取，为了提高信息的准确性，达闼又后续在落地的过程中，尝试将一些感知视觉专家小模型技术留在本体，以便在小脑上实现快速的基础感知、跟踪，从而实现目标检测。随后，其结果再进入云端结合大模型做相应场景的理解、判断，深化动作语义层面的解释，通过这种云网端的协同，其准确度实现了叠加。

如今，RobotGPT多模态具身大模型已经具有高级交互生成能力。其不仅整合了强大的语言生成和处理功能，还融入了情感分析、视觉语言导航、视觉语言操作、表情动作生成、自主行为决策等多模态输入输出功能。

据悉，这种专家模型+多个技术模型融合后，参数已经接近千亿水平，由于RobotGPT的推理能力不仅仅是基于预训练的知识，还能够利用历史经验进行适应性学习。这样一来，它不仅仅可以根据用户给出的指令或者遇到新情境时快速调整行为策略，在多个模型信息切口、各个模态数据瞬间对齐的过程中，还使得RobotGPT这一模型也水到渠成展现出了优越的多模态感知和理解泛化能力，实现了跨模态的领先性。

▍技术落地与拓展的未来

有消息表明，目前，RobotGPT多模态具身大模型以其强大的多模态数据处理整合能力，不仅让机器人在完成复杂任务上表现出色，更在感知、认知、决策和执行多功能复杂任务的过程中展现出高级工作能力，已经应用于电力、医疗保健、金融保险以及交通枢纽等十余个重点行业，并支持百余种客户场景应用，受到了国内外的高度评价。

例如在电力领域，基于RobotGPT多模态大模型，机器人能更快利用行业知识和服务数据进行调优，形成电力行业大模型，实现垂直行业的知识问答，支持多轮对话、多模态交互、知识摘要、图文生成、报表分析等，满足智能客服、企业办公等需求。

而例如在医疗健康领域，RobotGPT目前已经在部分顶级医院的自助服务、业务查询、病理推断、孪生训练等等方面实现了国内领先应用。在金融保险领域，该模型则可以通过分析客户的语音和行为，提供更精准的风险评估和客户服务。

还有例如在交通枢纽，如机场和地铁，RobotGPT训练调优生成机场、地铁服务类大模型，满足机场、地铁等知识问答的同时，赋能各种类型的服务和功能机器人，完成复合型和个性化业务，提高轨道交通服务运营质量。

在人形机器人的热浪中，挑战和机遇必然共存。达闼等更多相关企业在未来机器人市场中稳步增长，才能更好加速推动相关大模型产品的落地实施速度，推动“机器人+”千行百业快速向前发展。达闼未来会走向哪，不妨等等时间来判断。

魔女团新闻

四个大模型叠加，机器人进入现实将像“打游戏”一样简单？

机器人讲堂开课了