上海发布首个机器人通用“大脑”:能听懂人话自主思考,挂衣服分这几步完成上海人形机

星空表哥 2025-03-10 22:35:55

上海发布首个机器人通用“大脑”:能听懂人话自主思考,挂衣服分这几步完成

上海人形机器人再迎重要进展。3月10日,智元机器人发布智元启元大模型GO-1(Genie Operator-1),这是全国首个通用具身基座大模型,并成功部署到多款机器人本体。据悉,GO-1可以利用人类视频学习,还能够在极少数据甚至零样本下,使机器人适应不同场景和任务,降低具身模型的使用门槛。

基于百万级真机数据构建

“GO-1大模型基于具身领域的数字金字塔所构建,吸纳了人类世界多种维度和类型的数据。”智元合伙人、具身业务部总裁姚卯青向记者展示了一个数字金字塔。

智元展示的数字金字塔。

底层是互联网的大规模纯文本与图文数据,可以帮助机器人理解通用知识和场景,第二层是大规模人类操作及跨本体视频,可以帮助机器人学习人类或者其他本体的动作操作模式。第三层是仿真数据,用于增强泛化性,让机器人适应不同场景、物体等。金字塔的顶层,则是高质量的真机示教数据,用于训练精准动作执行。

但是常规的VLA(视觉语言动作)架构,无法利用大规模人类及跨本体操作视频数据,缺少了一个重要的数据来源,导致迭代的成本更高,进化的速度更慢。

简单来说,以往的机器人都是通过网络的图文数据以及仿真数据来“模仿”人的行为,但没有真人“手把手”教机器人遇到各种情况应该怎么做。

为解决具身智能的数据难题,智元在去年底推出了AgiBot World真机数据集,包含超过100万条轨迹、涵盖217个任务、涉及五大场景。以此作为基础,智元在今天发布通用具身基座大模型GO-1。

智元推出首个具身通用大模型GO-1。

在AgiBot World诞生之前,谷歌也构建了一组不同机器人训练的开源数据集Open X-Embodiment,但由于大部分数据缺乏统一标准化的采集流程,质量格式参差不齐。

相比之下,智元AgiBot World数据集从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。其长程数据规模高出10倍,场景范围覆盖面扩大100倍,数据质量从实验室级上升到工业级标准。

“这些机器人的动作数据集看似非常基础,没有什么炫酷的展示,但数据精度和涵盖面算是全球顶级的。”上海智元机器人渠道销售总监刘强表示。

平均成功率提高32%

有了高质量的数据保障,更可靠的技术架构也要跟上。

为了更好利用这些数据,智元提出了全新的ViLLA(视觉语言隐式动作)架构,与VLA架构相比,能通过预测Latent Action Tokens(隐式动作标记),弥合图像—文本输入与机器人执行动作之间的鸿沟,增强机器人的泛化能力。

通过ViLLA架构,智元机器人在五种不同复杂度任务上测试GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%。其中,倒水、清理桌面、补充饮料三项任务表现尤为突出。这也意味着,GO-1在真实世界的灵巧操作和长时任务方面表现卓越,远远超过最先进的开源具身基座模型。

测试结果显示,GO-1性能全球领先。

姚卯青表示,GO-1大模型可以帮机器人完成全面的“基础教育”和“职业教育”,天然能适应新的场景,可以轻松面对多种多样的环境和物体,快速学习新的操作。

他以“挂衣服”为例,模型可以根据看到的画面,理解这句话对应的任务要求,然后根据之前训练时看过的挂衣服数据,设想这个过程包括哪些操作步骤,最后执行这一连串的步骤,完成整个任务的操作。

如果分解来看,机器人挂衣服需要分四步走:

第一步:机器人通过“互联网的大规模纯文本和图文数据”学习,理解了“挂衣服”这句话在此情此景下的含义和要求;

第二步:机器人学习过人类操作视频和其他机器人的各种操作视频,知道“挂衣服”这件事包含的所有步骤和环节;

第三步:由于仿真数据中包含不同衣服、不同衣柜、不同房间等场景,机器人在“仿真世界”中模拟出“挂衣服”所有操作,因此能理解每一个操作环节中对应的物体和环境。

第四步:通过预先学习的真人示教数据,机器人能精准完成“挂衣服”整个任务的操作。

机器人“大脑”日渐成熟

GO-1作为通用具身基座大模型,也就是说,这一大模型不再被机器人的具体型号、适用场景束缚,而是具备泛化能力,可以支持不同机器人快速适应新任务和学习新技能。

姚卯青介绍,GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。通过强大的泛化能力,GO-1能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

值得一提的是,GO-1大模型还搭配了智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

通用大模型与具身智能的结合,是机器人迈向AGI(通用人工智能)的必经之路,而具身基座大模型也标志着机器人的“大脑”正日渐成熟。

事实上,十几年前,机器人就可以“擦桌子”“拉小提琴”,这似乎不是什么新鲜事。但过去这些机器人,只是在完成预设程序,并不代表机器人具备自主完成任务的能力,或者说并不真正具备智能。如今,随着具身智能的不断演化,聪明的机器人已完成“从单一任务到多种任务”“从封闭环境到开放世界”“从预设程序到指令泛化”的三层进化。

“目前,机器人能够在不同场景中执行多种任务,而不需要针对每个新任务重新训练,也不再局限于预设程序,能够理解自然语言指令,并具备一定推理能力。”姚卯青表示,机器人一旦“听懂人话”,就能在商业、工业、家庭等多领域发挥更大的作用。

0 阅读:56
星空表哥

星空表哥

感谢大家的关注