导读:AI大模型,究竟为机器人带来哪些新进化?
2024年,AI大模型成为机器人产业新的加速器。
今年3月,ChatGPT4加持的机器人Figure01向外界展示了大模型赋能人形机器人的巨大潜力。Figure01能理解周围环境,流畅地与人类交谈,理解人类的需求并完成具体行动,包括给人类递苹果、摆放杯子和盘子等动作。
在8月21日-25日举办的2024世界机器人大会上,AI大模型与机器人的融合也是一大热点。如何将AI大模型能力融入机器人产业,成为业界共识。
当大模型发展到当前阶段,它对机器人的发展将起到哪些关键价值?
2024世界机器人大会期间,科大讯飞副总裁、研究院院长刘聪向媒体分享了科大讯飞赋能机器人产业的思考与最新进展。
作为国内头部人工智能公司,早在2022年1月科大讯飞就提出“讯飞超脑2030计划”,旨在让懂知识、会学习、能进化的通用人工智能技术,以机器人的实体形态或虚拟形态能够进入到每一个家庭。科大讯飞在机器人领域的定位是赋能平台,目前已有420+机器人企业接入星火机器人超脑平台。
大模型,加速人形机器人智能进化“人形机器人是大模型最好的载体之一。”
刘聪认为,在大模型出现之前,人形机器人在智能化层面存在不少瓶颈,主要体现在三点:
第一,暂不具备复杂任务的理解和规划能力;
大模型出现之前,人形机器人更多是基于控制系统的指令,完成对环境的感知与交互执行。
刘聪举例说,让机器人把桌上的一个薯片抓起来是可行的。但是如果给机器人一个指令,“把抽屉打开,把里面的薯片抓出来,再把抽屉关上”,这种复杂任务暂时还无法完成。
第二,仅能完成特定任务,通用性不足;
此前,机器人更多是在各垂直领域术业有专攻,工业机器人、教育机器人、巡检机器人、酒店机器人、保洁机器人……大部分机器人是为了完成某个特定任务和重复工作而设计。对于人形机器人,开放任务、通用任务仍是难点。
第三,多模感知能力、认知能力仍有待提高。
许多人形机器人在视觉、听觉、触觉等感知能力方面仍然存在局限,这限制了其在复杂场景的应用。此外,机器人要做到能够理解和处理人类语言、情感和意图,也是一个巨大的挑战。
与之对应的,大模型将为人形机器人智能化带来巨大提升空间,完成理解并规划任务、感知及行为决策、环境交互与执行的闭环。
“总体来说,原来的机器人更多关注小脑能力,完成的任务相对单一。大模型加入之后,大脑能力显著提升。”
首先,理解并规划复杂任务能力提升;
大模型的思维链推理能力将显著提升人形机器人对于复杂任务的理解能力,并提供符合物理世界常识的拆解规划。
比如,基于思维链以及对薯片和抽屉的物理知识,机器人可以为之前举例的需求规划路径:打开抽屉——抓取薯片——规划返回路线——将薯片放在桌上。
其次,感知及行为决策能力提升;
将具身感知模型和具身决策模型相结合,可以极大提升人形机器人在真实场景下的多模态感知和理解能力。类似GPT4o展示的实时读图、读物的能力,未来将在人形机器人上实现。
第三,算法将进一步改进硬件环境交互与执行能力。
基于大模型生成式AI的能力,通过物理世界模拟器可以降低机器人对真实数据的依赖,降低了数据集成的成本。
“此外,我们在仿真过程中的算法,对机器人硬件结构和参数会形成一些调整的反馈。也就是说,大脑能力反过来也带动了小脑能力的增强,带来整体运动、操作能力的增强。有点像我们讲的知行合一。”刘聪表示。
大模型与机器人的技术融合必将带来产业融合的新模式。在这一过程中,推动大模型深度赋能机器人本体,才能加速产业全链条发展。
“在机器人相关领域,科大讯飞的定位是通过平台来赋能生态,通过与产业链上下游合作去打造标杆应用。”刘聪表示。
“为什么科大讯飞有能力做这件事?”刘聪将其总结为三大优势:第一,多年来在人工智能全栈能力的积累,第二,软硬件协同能力的积累,第三,产业链生态聚合能力。
2023年,在科大讯飞25周年演讲中,董事长刘庆峰曾将“推进讯飞超脑2030计划,迈向家庭陪伴机器人的万亿市场”,作为大模型时代科大讯飞的五大核心战略之一。
根据公开资料,“讯飞超脑2030计划”目前已首批启动七个项目,其中与机器人产业直接相关的是:运动智能算法与机器人关键软硬件研发、机器人示范应用及系统研发两大方向。
在机器人示范应用及系统研发方面,2023年9月科大讯飞在业界首次实现基于国产化星火大模型在人形机器人上的拉通,实现面向复杂任务的理解、拆解规划,成功率达到 95%。同时,突破端到端强化学习运动控制及具身智能核心技术,并成功在人形、四足、轮足机器人上进行实践应用,整体性能较业界传统方案提升 30%以上。
运动智能算法与机器人关键软硬件方面,科大讯飞推出星火机器人超脑平台,目前已经支持了业内超过420多家机器人企业,包括新松、优必选、宇树科技、银河通用智能、傅里叶智能、智元机器人、EX Robert等等。而且,星火机器人超脑平台已经汇聚了3.5万机器人相关开发者。
此外,刘聪认为未来人形机器人与人类的交互将更加多模态、更加自然。
他还剧透了即将在8月30日上线讯飞星火APP的“星火极速超拟人交互”功能。这是一款对标GPT4o交互体验的AI产品,具备极速响应自由打断、情绪感知、更丰富表达风格等特性。未来,“星火极速超拟人交互”也将赋能更多人形机器人产品。
“我们会先集中力量把语音交互做透,从这样的框架出发,未来再拓展到多模态的能力其实会更快。而多模态很重要的一个场景就是机器人。”刘聪表示。
目前,人形机器人的应用场景已经拓展到教育、娱乐、家庭服务、展馆展厅、影视综艺、科研高校、仓储物流和办公场景等等。然而,较高的硬件成本、端侧算力、数据集成成本等都是人形机器人产业化面临的挑战。
“从展示到真正好用,我觉得还有一个持续的路要走。人形、双足等机器人的形态可能不是最重要的。更重要的是要沿着不同场景下对能力的需求,将大脑和小脑结合,并将能力划分成不同阶段,用丰富的机器人产品矩阵来满足不同的需求。”
文中图片来自摄图网
END
本文为「智能进化论」原创作品,