智驾大模型开启西线新战事

文｜三少爷

是的，大模型正在悄悄入场！

就在自动驾驶行业的玩家正在端到端的赛道卷得锣鼓喧天的关键时刻，成为车企和方案供应商们又一个重要宣传抓手。

而经过一轮又一轮的技术传播，业界对端到端的概念、作用和实现方式逐渐达成一致，形成共识，但对于大模型则普遍语焉不详，甚至存在有意无意模糊大模型概念的现象。

有的厂商将之前的自动驾驶模型做得参数大了一些，就堂而皇之地称自己有的是自动驾驶大模型；有的厂商只是实验性、象征性地把大语言模型部署到车端上，没有真正实现端到端，也敢用“端到端大模型”的名义宣传。

当然也有真材实料的厂商秉持“悄悄的进村，打枪的不要”，保持着不可思议的低调。

不管怎样，大模型势不可挡地渗透进自动驾驶领域，成为引发第4次工业革命的大杀器。大模型到底可以给自动驾驶带来哪些价值？

云端大模型加速开发闭环

也难怪华为总结说：大模型对自动驾驶开发闭环和数据闭环的赋能，主要体现在场景理解、预标注、多模态检索和场景生成这四个方面。

应该说，总结得比较全面了。

图片来源：华为

首先是场景理解。

记得毫末智行在去年的AI Day上展示过自家DriveGPT的场景理解能力，不仅具备目标识别、语义分割、行为预测等传统技能，还能理解场景中的复杂语义和行为逻辑。

不要觉得这个能力有多不可思议，背后原理就是大模型通过学习驾驶场景文本和图片模式的关联，逐渐学会“看图说话”。文本、图片是站在两个不同的视角下对同一个驾驶场景的描述，在驾驶场景这个“Fact”的纽带下，文本和图片可以自然而然地匹配起来。

它就像古人游山玩水之时触景生情诗兴大发，留下千古名句，让人不自觉地在美景（图片）和诗句（文本）之间建立起了关联——看到壮丽山河，“会当凌绝顶，一览众山小”；见到宁静湖泊，“水光潋滟晴方好，山色空蒙雨亦奇”。

而大模型喂进去上亿张图片和文本描述对之后，也会自然而然地触“景”（驾驶场景）生“情”（文本形式的Token），绝不会像那些肚子里没有多少唐诗宋词存货的人那样，看到美景只会说卧槽，感慨书到用时方恨少。

图片来源：毫末智行

而在数据标注方面。

业界一开始是通过计算机视觉进行数据的自动标注的，但这些传统算法的标注准确性不足，事后需要大量的人工矫正。

后来，利用基于卷积神经网络的深度学习模型，在大量已标注数据中学习了目标的特征和模式，建立出对新数据进行自动标注的能力。

这类深度神经网络模型不仅大幅度提高了数据自动标注的准确性，还可以把标注效率提升两三个数量级（和人工标注相比）。不过这种方式极其消耗算力。特斯拉在2022年的AI Day上曾透露：在训练占用网络的过程中，一共投入14,000张显卡，其中有4000张专门用作数据自动标注。

图片来源：特斯拉

大模型技术则进一步提高标注精度，提升标注效率，在一定程度上降低算力需求。2023年，Meta推出面向通用图像分割任务的视觉大模型SAM（Segment Anything Model），可以拿来进行驾驶场景的物体识别、分类、语义分割，大大加快了那些没有基础模型研发实力的智驾方案供应商和车企们，标注数据的速度。

图片来源：地平线

最后自动驾驶模型训练完成之后，需要“出考卷”验证模型的能力，“考卷”就是自动驾驶闭环仿真系统。

根据理想汽车的总结，搭建仿真系统有三条技术路线。第一，通过游戏引擎搭建3D虚拟场景；第二，利用车端数据，通过神经渲染重建场景；第三，通过生成式世界模型，直接生成全新的场景。

图片来源：理想汽车

当然，场景重建可以与AIGC相结合，在原有简单路况的基础上生成交通要素更丰富的场景。比如华为盘古汽车大模型可以在原始的空旷道路上通过Bbox增加车辆，生成可控交通流，提高场景的复杂度。

这里特别说一下小鹏汽车。

他们是利用生成式模型，在通过实车数据重建的动态视频中插入动静态物体，生成罕见的Corner case，用于加速长尾场景的收敛。

图片来源：小鹏汽车

车端大模型辅助感知和决策

的确，进入二季度以来，自动驾驶行业陆陆续续传出大模型上车的消息。

比如5月AI DAY上，小鹏汽车就表示端到端大模型正式量产上车，将通过大模型识别潮汐车道、特殊车道、复杂左转区标志、路牌标识。

似乎说了等于没说啊……翻译一下就是：利用大语言模型的能力，加入了对文本类型信息的语义理解，用于辅助自动驾驶感知。

而特斯拉的6月股东大会上，马斯克在回答一名记者提问时表示，特斯拉FSD使用了大语言模型技术。

和小鹏汽车的模模糊糊，特斯拉的语焉不详形成鲜明对比——理想汽车在7月智能驾驶系统发布会上，正式且明确地推出了端到端+大模型（视觉语言模型VLM）的双系统方案，还比较详细地介绍了视觉语言模型的架构、能力和实际应用。

图片来源：理想汽车

模型架构上，理想汽车视觉语言模型DriveVLM的输入为传感器，输出中间决策结果（车速建议、车道建议等）后，输送给端到端系统1，再辅助最终的轨迹决策。

系统能力上，视觉语言模型具备对复杂环境的理解能力，可以读懂导航地图，理解交通规则。

实际应用中，它可以识别潮汐车道，给出禁行建议，检测公交标志牌上的限行时间。还能根据当前时间，给出是否使用公交车道的建议。甚至能发现道路光线不足和路面颠簸，给出相应的减速建议。

图片来源：理想汽车

结合理想汽车分享的颠簸路面建议减速的场景，我们可以大致模拟一下视觉语言模型的工作过程，应该是这样子滴：

DriveVLM输入传感器信息、导航信息和时间信息，持续不断地形成并更新对场景的理解，以一定频率向系统2发提示词：“请描述当前的场景、天气、时间、道路类型、备选车道、自车车道”。

系统2输出了包含这些信息标签的场景描述后，再向自己发送提示词：“在当前的坑洼路场景下，应该怎么办？”它认真思索了一下：“咱们不是真魔毯，可以减速一下，减少因路面坑洼造成的颠簸感。”

看起来是不是很聪明的亚子？

图片来源：蔚来汽车

端到端+大模型是不是自动驾驶的终局?

其实，在理想汽车发布端到端+视觉语言模型的双系统方案之后，有不少专家认为：理想居然拿一颗四五百美金的Orin X芯片做视觉语言模型，旨在开创一条全新技术路线，豪赌的意味颇为明显。

的确，能不能成为新技术路线的开创者，于理想和整个业界是有一定争议的。

一则，特斯拉是端到端方案的领路人，OpenAI是大模型技术的拓荒者，作为特斯拉、OpenAI的联合创始人，马斯克更有资格成为端到端+大模型的开创者。

二则，小鹏、特斯拉的端到端大模型同样使用了大语言模型技术。不过，小鹏XNGP只是在端到端方案中，使用大语言模型作感知模块的一个组件。而理想汽车的智驾系统里，视觉语言模型并不是端到端系统的一部分，而是与之并行的独立系统。

咦……从这个角度来看，理想的双系统方案确实开风气之先！

但是，更重要的争议点在于——现在就判断端到端+大模型会成为自动驾驶技术路线的终局，还早了一点。

特斯拉引领的BEV、占用网络和端到端，之所以成了业界追随的主流技术路线，是因为每一次技术方案的升级，都大幅度提升了自动驾驶系统的性能表现。而当前的大语言模型或视觉语言模型，并没有展现出这种实力。

毕竟，车端大模型依旧面临着三大问题。

一是大模型的幻觉问题。理想汽车的确展示了它在若干场景下的精确场景描述能力和到位的决策建议。但是，道路千千万，场景万万千，系统2是不是每次都能精准描述、建议到位了呢？

二是大模型的实时性问题。大模型要证明自己的能力，不能停留在只是输出对实时性要求不那么严格的中间规划结果上。而当需要直接输出行车轨迹规划时，按照任少卿在去年的蔚来科技日上的说法：决策模块需要在30毫秒之内给出规划路径。

目前理想视觉语言模型的延迟在300毫秒左右，和30毫秒差了整整一个数量级。

图片来源：理想汽车

三是大模型的成本效益问题。目前的端到端方案并没有完全释放自己的潜力，当端到端可以覆盖99%的场景时，即便将来通过英伟达雷神芯片解决了模型的实时性问题，用一颗价格八九百美金（Orin X的价格在400-500美金之间）的大算力芯片做大语言模型，覆盖剩下1%的场景，到底还具不具备成本效益呢？

写在最后

大模型可以在云端改造算法开发工作流，也已经在自动驾驶的数据闭环和开发闭环中，证明了自己的价值。但是，车端大模型依旧处于早期发展阶段。

或许，还得靠特斯拉完成对端到端+大模型技术路线的探索。

毕竟马斯克是在股东大会上明确表态了：特斯拉将在18个月之内推出第5代HW硬件，相较HW4，算力提升10倍，外加7000TOPS+的算力。这……会不会就是拿来跑大模型的呢？

魔女团新闻

如梦初醒说车