4个月融资近2亿的「千寻智能SpiritAI」,交出首份亮眼答卷!

机器人讲堂开课了 2024-09-10 19:35:33

让人形机器人替代咖啡店waiter,挑战何在?

想象一下,咖啡店里人来人往,每个人口味各异,有人钟情浓郁拿铁,有人偏爱清新美式。更别提那吧台上琳琅满目的物品,还有顾客们各式各样的自带杯子……

简直就像一场永不落幕的动态挑战赛!

人形机器人要想在咖啡店混得风生水起,得有几把刷子:

首先,得听懂人话,不然无法和顾客沟通交流;

其次,得眼观六路,耳听八方,识别并适应复杂环境是最基本要求;

但最关键的,还得有颗“聪明脑袋”,能根据实际情况灵活变通,像人类一样,能通过观察快速掌握一门简单的工作技巧或技能,并随机应变、灵活应对各种突发状况。

传统机器人,依靠预设的程序执行任务只会按部就班,一旦环境变了或者作业内容变了,程序就得重写,要在复杂多变的工作环境中,实现快速有效应变存在显著难度!

当传统机器人遇到非预设情况时↑

不过,人形机器人与传统机器人的较量,关键也就在这柔性作业和变通的能力,也就是我们常说的智能化,或者更专业点,具身智能。

具身智能对机器人的影响↑

目前,众多人形机器人和具身智能企业都在努力让人形机器人变得像人类一样聪明灵活,在任何未知和变化的环境中都能稳住阵脚,实现多任务操作、柔性生产。而咖啡店waiter这一角色,正是大家最常用来进行实验的典型场景。

▍机器人waiter上线!超强变通能力灵活应对各类挑战

前不久举行的世界机器人大会上,众多企业纷纷展示了人形机器人替代咖啡店waiter的应用场景,但大多只是静态展示,能真正动起来的却很少。

然而,就在近日,刚成立不久的「千寻智能 Spirit AI」却放了个大招,对外发布了一段人形机器人在咖啡店吧台场景的“营业实习”demo视频。视频里,机器人面对各种突发状况都能游刃有余地应对,展现出令人惊叹的柔性作业和变通能力!

演示中,这位机器人小伙伴面对各种“小插曲”,那叫一个从容不迫。

一位“顾客”手持白色纸杯要求来一杯意式浓缩,却手滑将杯子碰倒。面对这一突发状况,「千寻智能 Spirit AI」机器人凭借其超凡的姿态泛化能力,单手轻轻一扶便将纸杯扶正。

随后机器人优雅地将其置于咖啡机上,并顺利完成了咖啡制作与摆放,整个过程流畅无阻,展现出对于随机物体姿态的高效处理能力。

紧接着,另一位“顾客”登场,手里拿着个透明玻璃杯,似乎是要给机器人来个终极考验,直接挑战它的识别极限。不仅如此,这位“顾客”还玩起了“障眼法”,让杯子在空中划出一道道迷离的轨迹,仿佛在和机器人玩一场高级的“捉迷藏”游戏。

但机器人可不吃这一套,它凭借着实时闭环所带来的高鲁棒性,不仅迅速而精准地识别出了这个透明反光的物体,更是在杯子移动的同时,以惊人的速度和准确性锁定了它的新位置。

随后的测试中,团队进一步加大难度,设置了高难度场景:在机器人手臂旁放置纸巾盒,而且还故意将纸杯紧紧挨着纸巾盒放置,仿佛是在给机器人出了一个难题,看它如何在如此局促的空间内大展身手。

凭借卓越的障碍避让能力,机器人迅速识别并移开了障碍物,随后毫无偏差地取到了纸杯,整个动作流畅自如。这一幕再次有力地证明了机器人在复杂空间环境中出色的主动识别与决策能力,让人不得不为其精湛技术和卓越性能所折服。

更令人惊叹的是,「千寻智能 Spirit AI」机器人将高度的适应性与强大的实用性完美融合于一身,还具备“变形”绝技!它的“夹子”手和灵巧手可自如切换,无论是抓取苹果还是执行复杂操作,都能游刃有余。两指、三指、五指,随便怎么配,均可实现连续多任务泛化。

▍动作由神经网络生成!出色泛化能力与鲁棒性如何实现?

凭借超凡环境感知、决策制定与执行能力,「千寻智能 Spirit AI」机器人即便是在面对多变场景和刻意设置的“难题”时,也能凭借其强大的连续多任务处理能力,逐一克服挑战,圆满达成任务目标。

那么,究竟是怎样的技术架构与组成,赋予了「千寻智能 Spirit AI」机器人如此非凡的能力呢?

据工作人员介绍,「千寻智能 Spirit AI」所展示的人形机器人做咖啡操作,采用了端到端的神经网络训练技术。机器人所执行的每一个动作,都是神经网络自主生成与优化的结果。厉害的是,这还是中国首个真正能搞定多任务连续泛化的具身模型机器人,它不仅仅是一个简单的机械构造,而是真正意义上通过深度模型训练与学习的智能体。

说到端到端神经网络训练,这可是深度学习里的前沿科技,现在人形机器人的智能提升就靠它了。其关键在于搭建一个统一的神经网络大舞台,让那些传统的分段小剧场退居幕后,直接从传感器接收的信息就能无缝对接到运动控制上。这背后,数据的力量可不能小觑,得搜集一大堆高质量的数据来喂饱这个网络,再用CNN、RNN这些高手提取感知精华。然后通过损失函数和反向传播这套秘籍,不断优化网络,让映射能力嗖嗖往上涨!

高数据需求解决:ATM框架

端到端神经网络训练虽厉害,但数据需求大是个头疼问题,特别是现实世界里的复杂任务,数据和标注都超级难搞!传统方法里的演示学习也一样,高质量数据难找又费时。视频虽多,没动作标签却也难以直接用于策略学习,模拟数据又存在模型在真实环境中泛化的挑战。

针对这些挑战,「千寻智能 Spirit AI」联合创始人、首席科学家高阳此前曾带领团队深入研究,并创新性地提出Any-point Trajectory Model(ATM)框架。这个框架能通过预训练轨迹模型,预测视频中任意点的未来轨迹,给策略学习提供超详细的控制指导。与传统方法相比,它只需要少量标注数据就能完成训练,还具有强大鲁棒性。

ATM模型还有个特别的地方,就是它只预测视频帧中任意点的未来轨迹,不关心整个图像怎么变,这样既省了计算资源,又让模型跑得更快。而且,它还能把策略学习变得更简单,只需要跟着预测的轨迹走就行,这样既省了数据,又提高了成功率。

高阳教授还积极探索了使用互联网视频来训练机器人模型的新方法,结果证明,ATM框架在长程任务里表现得超级好。与伯克利世界机器人和机器学习领域顶级专家Pieter Abbeel教授的UniPi算法相比,ATM框架在长程任务中性能提升最多达到500%,可为小样本和跨具身机器人学习领域提供新的理论支撑。

泛化能力提升:ATM框架、EfficientImitate高性能模仿学习算法、ViLa和CoPa模型

提升泛化能力也是端到端神经网络训练的一个大挑战。一般来说,训练数据罩不住所有可能的情况,所以当模型碰到数据中没有的新输入时就很容易懵圈不知如何应对,少了传统方法中人为设计的鲁棒性。这导致模型在训练集上风光无限,一到新环境就水土不服,过拟合风险蹭蹭涨。

对此,「千寻智能 Spirit AI」在高阳教授科研成果的基础上开辟了新路子:

泛化能力提升的关键离不开轨迹预测。高阳教授提出的ATM框架是个预测高手,能精准算出视频里任意点的未来运动轨迹。它的独门秘籍是,不光能学机器人自己的视频,连人类操作、其他类型机器人的视频也都能照单全收,跨界融合知识。这广纳百川的学习法,让模型能提炼出更通用、更强大的运动智慧,从而显著提升泛化能力!

观察与模仿是人类掌握技能的核心途径,这一规律同样适用于机器人的学习过程。不过,就像学霸和学渣对着同样的书本,却因为学习方法不同,成绩天差地别。对机器人而言,找个高效的模仿学习秘籍,那也是至关重要的大事!高阳教授所研发的EfficientImitate高性能模仿学习算法,可以说是机器学习模仿界的“超级学霸”。相较于斯坦福的VMAIL算法,其性能提升了惊人的600%。同时,在数据量一致的前提下,EfficientImitate算法能够极致发挥模仿学习的泛化潜能,不仅显著可提升智能体的学习效率,还能大大增强其环境适应能力。

机器人若想提升泛化能力,光有学习和轨迹预测的能力也不够,还得有颗聪明的“脑袋”,能根据周遭环境灵活思考行动方案。在借助视觉-语言模型(VLM)助力机器人深入理解任务并高效规划这条路上,高阳教授提出的CoPa模型遥遥领先,它在VLM领域内展现出了任务级别的超凡泛化实力,远超斯坦福李飞飞教授的VoxPoser。更令人瞩目的是,全球领先的Figure01机器人其智慧体系之中,亦将高阳教授的ViLa模型纳入其中并作为顶层规划的核心驱动力。

依托高阳教授所提出的ATM框架及其一系列开创性的算法与模型,「千寻智能 Spirit AI」成功克服了端到端神经网络训练中面临的高数据依赖性和低泛化能力等关键性难题,实现了显著技术飞跃,有了在可媲美咖啡店waiter的智能表现。

▍全栈AI工程化能力!「千寻智能 Spirit AI」下一步指向何方?

2024年2月方才成立,短短半年时间便取得令人瞩目的技术成就,技术实力更是超越众多人形机器人和具身智能领域的企业,「千寻智能 Spirit AI」为何能如此迅速地崭露头角呢?这一飞速发展的核心动力,源于其卓越非凡的团队构成。

据了解,「千寻智能 Spirit AI」由产业界与科研界的两位高手联手创立:

一位是前珞石机器人联合创始人兼CTO韩峰涛,他师承机器人学界泰斗丁汉院士,在机器人领域深耕超过十年,成功带领团队实现了跨越20多个行业、覆盖100多个场景、服务超过1000家客户的商业化成果,积累了宝贵的产品商业化与落地经验。

另一位则是清华大学交叉信息学院的助理教授、清华大学视觉与具身智能实验室的主任及博士生导师高阳,他师从国内机器学习领域的权威学者朱军教授及国际计算机视觉大师Trevor Darrell教授,在具身智能领域深耕多年,取得了丰硕的学术成果。

除此之外,「千寻智能 Spirit AI」还汇聚了来自UC Berkeley、CMU、清华大学、北京大学、浙江大学等国内外顶尖高校的杰出人才,以及小米、华为、腾讯、大疆等知名企业的精英。这支团队在具身大模型、机器人技术及场景应用方面均展现出了卓越的领先优势。他们不仅掌握了业界领先的具身大模型技术及出色的机器人研发能力,还具备全栈AI工程化能力,并在预训练模型、模仿学习和强化学习等核心技术上占据了显著优势。同时,在机器人系统级设计和优化、功能安全、模块化控制软件架构以及高性能机器人控制等方面,「千寻智能 Spirit AI」团队也均处于行业领先地位。

产品高手与科研巨擘的强强联合,将为具身智能行业带来怎样的惊喜呢?作为目前国内唯一一家具备AI+机器人生产力级全栈技术能力的具身智能企业,「千寻智能 Spirit AI」的未来发展备受期待。

在8月初宣布完成近2亿元种子轮+天使轮融资时,「千寻智能 Spirit AI」曾透露将持续加大技术研发与场景落地的力度,致力于打造能够胜任各种任务的通用智能机器人平台,开创机器人技术的新纪元。

而今,距离融资不到一个月的时间,我们便已经看到了「千寻智能 Spirit AI」智慧解决方案落地的初步成果。从技术研发到产品市场化,「千寻智能 Spirit AI」的未来之路将指向何方?我们满怀期待,静候其带来更多惊喜。

0 阅读:6