昨天NIOIN蔚来提出的世界模型，我这里尽量用通俗的语言描述下。先从OpenAI

昨天NIOIN蔚来提出的世界模型，我这里尽量用通俗的语言描述下。

先从OpenAI 的ChatGPT 出发，这是一种语言生成式模型。

就是和人类对话，或者文字内容一样，

看到了上一句话，这个模型可以产生下一句话，而且这句话在我们看来是合理而且是经过思考的。

理解到这里我们回到蔚来的WorldModel。

我们在看一个图片的时候，我们可以推演出下一个时刻会发生什么。

例如图一，在图片前一秒，我们看到车往这个方向去了，我们就能推演出，下一秒两辆车将会发生碰撞，并且能在脑海中产生画面。

某种意义上，这就意味着我们脑海中已经有一个世界模型了。

即看到这个时刻的视觉信息，可以推演出下一时刻发生了什么。

蔚来的NWM 做的也就是类似的事情，看到图片之后，可以推演出接下来一段时间会发生什么，并且给出图片序列（也就是视频）。

这是第一个功能。

这有什么用？

当然可以用来训练自动驾驶系统，因为这跟实际道路上采集的数据格式是基本一致的。

同时，经过了一些大语言模型的融合，也可以修改天气，光照等等信息。

这也不是全部，回到我们的想象过程，我们实际上不仅理解了下一个时间点物体的运动趋势（速度向前），我们还理解了物体的三维位置（两辆车空间太近，二者会碰撞）。

那这不就是自动驾驶感知层在做的事情吗？既然都理解了这个信息，就像一个人具备足够的认知能力的话，那么这个人开车肯定可以学会。

那么这个模型为什么不能输出实际的轨迹呢？

这就是蔚来世界模型除了给出视频生成之外的下一个功能，轨迹输出。

蔚来NWM 能够给出216（这个数字其实有点奇怪）个轨迹，在这些轨迹中，根据自己推理出的结果，找出最优结果。

这个难度其实非常大的，如何上车端，如何保证运行速率，如何保证这个系统没有幻觉现象。

期待蔚来的示范

#汽场全开##蔚来启动汽车座舱ai化#

魔女团新闻