昨天NIOIN蔚来提出的世界模型,我这里尽量用通俗的语言描述下。先从OpenAI

都懂一电电 2024-07-28 19:04:20

昨天NIOIN蔚来提出的世界模型,我这里尽量用通俗的语言描述下。

先从OpenAI 的ChatGPT 出发, 这是一种语言生成式模型。

就是和人类对话,或者文字内容一样,

看到了上一句话,这个模型可以产生下一句话,而且这句话在我们看来是合理而且是经过思考的。

理解到这里我们回到蔚来的WorldModel。

我们在看一个图片的时候,我们可以推演出下一个时刻会发生什么。

例如图一, 在图片前一秒,我们看到车往这个方向去了,我们就能推演出,下一秒两辆车将会发生碰撞,并且能在脑海中产生画面。

某种意义上,这就意味着我们脑海中已经有一个世界模型了。

即看到这个时刻的视觉信息,可以推演出下一时刻发生了什么。

蔚来的NWM 做的也就是类似的事情,看到图片之后,可以推演出接下来一段时间会发生什么,并且给出图片序列(也就是视频)。

这是第一个功能。

这有什么用?

当然可以用来训练自动驾驶系统,因为这跟实际道路上采集的数据格式是基本一致的。

同时,经过了一些大语言模型的融合,也可以修改天气,光照等等信息。

这也不是全部,回到我们的想象过程,我们实际上不仅理解了下一个时间点物体的运动趋势(速度向前),我们还理解了物体的三维位置(两辆车空间太近,二者会碰撞)。

那这不就是自动驾驶感知层在做的事情吗? 既然都理解了这个信息,就像一个人具备足够的认知能力的话,那么这个人开车肯定可以学会。

那么这个模型为什么不能输出实际的轨迹呢?

这就是蔚来世界模型除了给出视频生成之外的下一个功能,轨迹输出。

蔚来NWM 能够给出216(这个数字其实有点奇怪)个轨迹,在这些轨迹中,根据自己推理出的结果,找出最优结果。

这个难度其实非常大的,如何上车端,如何保证运行速率,如何保证这个系统没有幻觉现象。

期待蔚来的示范

#汽场全开##蔚来启动汽车座舱ai化#

0 阅读:13