李想聊到了VLA,有一个很深刻的观点。★VLA会成为下一代智能汽车竞争的基

飞机先生啊 2024-12-30 11:57:20

李想聊到了 VLA ,有一个很深刻的观点。

★VLA 会成为下一代智能汽车竞争的基座模型。

(VLA:视觉-语言-动作模型)

这种竞争类似于手机时代,当发展到一定程度的时候,硬件反而大部分由供应商解决,而手机厂商需要有大型软件的能力,比如手机有操作系统、云服务和应用商店。

而作为智能汽车时代的竞争,也需要有大型软件的能力,也就是发展自己的基座大模型。

★有同学应该会问,那基座模型不是通用的吗?

比如大家现在车上都有的很多语言模型能力?

其实基座模型在解决一些通用能力很好,但进入专业领域完全没有能力。而好的数据只有头部车企才有,也最懂得怎么获得,同时也不会公开。

比如现在大家的端到端智驾大模型,大家训练出来的体验各有差异,体验也参差不齐。

★VLA 是一个重要分水岭

在 VLA 之前,理想有两个基座模型,一个是智能驾驶为代表的空间智能(E2E),一个是以座舱语言模型为代表的语言智能(VLM)。

但这两个基座模型,现阶段来看是相对独立的。

比如 VLM 就是语言智能的产物,它能看懂公交车道、潮汐车道甚至能辨认出交警手势。但这些其实都是靠大量二维图片训练出来的,系统不知道这个交警离我多远,没有空间意识,不具备有三维空间的能力。

所以 VLM 只能给端到端的智驾能力提供一些交流互动,也会有延迟。

而 VLA 就是将两者合二为一。就是用一套大脑系统既能处理语言,也能处理图像,并且处理图像的时候,有人一样的三维向量空间的能力,能调用自己的行动。同时 VLA 也有自己的记忆逻辑,具备有延续性。

这时候基座模型会迎来一个重大的分水岭。

比如空间智能迎来了 L4,语言智能迎来了新的Agent智能体,变成了一个更大超模型能力…

0 阅读:1
飞机先生啊

飞机先生啊

感谢大家的关注