流量至上、追星现场,这两个词应该是大多数人在今年北京车展上的第一感受。
车企的宣发重点,从技术分享和战略展望转向了车型介绍,甚至不少车企在车展现场直接安排上了带货主播。
媒体的关注重点,也跟着车企的节奏转移,来到了自带流量的雷军和周鸿祎身上。
然而这场「流量盛宴」的背后,暗藏了价格战下车企对于销量的焦虑——一边是友商疯狂降价,一边是智驾技术不断迭代,降价提质的双重压力之下,能带动销量的流量成了车企的救命稻草。
如果走出会展中心的 8 个主要展馆,来到周边供应商的展台,对这份焦虑的感知会更加明显。
毕竟车企在智驾领域降价提质的压力,最终还是会传导到供应商身上。
车企忙着展示车、销售车,智驾产业链上的供应商则在技术上钻起了牛角尖。
从英伟达、腾讯云、元戎启行、安霸科技等多家供应商的描绘中,逐渐拼凑出 2024 年智驾技术的发展蓝图——除了降本这个避不开的话题以外,各家谈到最多的关键词就是大模型和端到端,以及衍生出的算力不足恐惧症、数据饥渴、无高精地图、前融合与规则算法。
大模型标志着 AI 定义汽车观念的形成,给行业带来了算力不足恐惧症,以及数据饥渴。
端到端大模型则意味着行业进入了 AI 定义汽车的 2.0 时代,无高精地图、前融合与强大的规则算法能力是实现端到端的技术关键。
01、大模型时代:算力不足恐惧症和数据饥渴
「好像现在不提大模型,大家都不知道怎么问问题了。」
在接连回答了十几个问题之后,腾讯智慧出行副总裁刘澍泉发出了如上的感慨,这也是大多数智驾产业链上的供应商都会遇到的问题——不管你是做芯片的,还是做智驾方案的。
大模型之所以成为关注重点,在于其重塑了自动驾驶的技术路线。
英伟达全球副总裁吴新宙认为,自动驾驶是三段式的发展:
第一阶段的自动驾驶系统完全基于规则,有着大量人工 Engineer Feature(工程师特征),目前已经过时。
第二阶段的自动驾驶方案是规则算法与 AI(大模型)相结合,目前感知部分几乎全部交给了模型,预测和规划部分则是人工规则和 AI 模型结合,属于目前的主流方案,也是 AI 定义汽车(智驾)的 1.0 时代。
第三阶段的自动驾驶方案就是端到端大模型的方式,目前特斯拉的 FSD 就是基于此方案打造的,属于 AI 定义汽车(智驾)的 2.0 时代。
自从大模型被引入自动驾驶之后,汽车自动驾驶的开发流程也发生了变化。
在软件定义汽车时代,工程师要先写好智驾系统的规则代码,随后进行大量路测收集问题,再针对性的修改智驾代码。
而到了 AI 定义汽车时代,智驾开发分成了云端和车端两部分。云端负责模型训练和仿真验证,随后将云端成熟的智驾模型通过 OTA 部署到车端,再通过车端回传的数据加强云端模型的训练。
大模型的出现,无疑提升了智驾系统的能力上限,并加快了开发、迭代流程,但是也给车企带来了新的问题——算力不足恐惧症和数据饥渴。
想在云端训练出优秀的大模型,对算力的需求非常高。
早在去年,特斯拉便砸钱 3 亿美元购买了 1 万块英伟达 H100 芯片,将云端算力堆到了 10 EFLOPS,而在 4 月份的 Q1 财报上,特斯拉公布已投入使用了 3.5 万台英伟达 H100,并计划在年底增加至 8.5 万台。
国内智驾第一梯队的华为,云端算力也从去年 12 月的 2.8 EFLOPS 增加至 3 月的 3.3 EFLOPS,4 月份又更新至 3.5 EFLOPS。
在堆云端算力这件事上,车企只有三个选择:
和特斯拉的 Dojo 一样从零做起,自研高算力芯片。虽然成功后收益很高,但要面临技术和资金双重压力,目前特斯拉 Dojo 超算中心的进度同样不明朗,属于高风险高收益的方式。购买英伟达的芯片自建超算中心,虽然比第一种方式简单了不少,但是自建云端超算中心的难度依旧不亚于造车。与国内现有的云服务商合作,共建云端超算中心。综合来看,第三种方式是目前国内车企的共同选择。问界、极越、蔚小理等分别选择了华为云、百度云、阿里云、火山引擎和腾讯云等合作伙伴,云端算力正成为智驾开发的数字基建。
卷完了云端算力之后,车端算力成了第二战场。
「做好自动驾驶的第一步是重建事件,重建的事件越真实、越一对一、越稳定、距离越远,智驾的基本功也就越扎实」,元戎启行 CEO 周光在采访中表示,「如果智驾连重建事件都做不好,又何谈后面的理解、交互呢?」
而完美的重建事件,则非常考验传感器、感知算法和车端算力之间的综合能力。
传感器越多、精度越高,收集的信息便越多,构建事件也就越容易,但是相应的对车端算力的要求也越高。
在目前智驾白热化的竞争阶段,通过优化算法减少对传感器数量的依赖「太慢」,先加大算力跟上节奏显然更「划算」。
为了应对车端算力日增的需求,芯片厂商纷纷推出了更高算力的车端芯片。
英伟达推出了单颗芯片算力超过 1000TOPS 的 Thor,安霸科技也推出了 750TOPS 算力的 CV3-AD685 芯片,为车企后续更高的算力需求提供保障。
不过在车端芯片上,算力高不是唯一标准,还必须要考虑架构。
安霸科技中国区总经理冯羽涛告诉汽车之心,智驾芯片虽然是底层硬件,但是开发过程非常强调「算法优先」——比如 Transformer 架构出现后,很多芯片由于没有提前适配所以没办法运行,要想跟上需求的发展,就必须更加关注前沿算法。
安霸科技总裁兼首席执行官王奉民补充了一个有趣的案例:
安霸科技在 2018 年时,发现特斯拉的报告中提到了正在研究新一代的算法,虽然没提到具体的架构,但是安霸科技从描述中推断特斯拉要用到的算法应该是 2017 年提出的 Transformer,便开始针对该算法进行芯片开发,最终在 2018 年推出了支持 transformer 的 CV2 系列芯片。
当然,这次豪赌背后同样存在风险——安霸的智驾芯片流片一次的成本大概在 2000 万美元,所以芯片厂商不仅要关注前沿算法,还要能判断算法的发展趋势。
供应商们解决了车企的算力不足恐惧症后,还要继续满足车企的数据饥渴。
元戎启行 CEO 周光多次强调,要想做好大模型、尤其是端到端大模型的自动驾驶,就必须要有大量数据,没有量产数据支撑就是死路一条。
供应商虽然无法为车企提供量产数据,但是可以用大模型的方式,提供「平替」数据。
英伟达和腾讯均强调了基于生成式 AI 的「仿真」环节。通过生成式 AI,车企可以生成海量仿真数据用来训练云端大模型。
虽然和真实数据相比,AI 仿真训练还存在置信度和覆盖度等方面的问题,但是对于本就缺乏真实数据的车企而言,生成式 AI 不仅让训练大模型成为可能,还能加快智驾系统的开发流程。
训练后的模型在 OTA 部署到车端之前,可以先在仿真环境中进行测试和验证,更快更高效地排查问题。
解决了算力和数据的问题,车企才算迈入 AI 定义智驾的 1.0 时代。
02、端到端大模型:无图、前融合、规则算法缺一不可
从 AI 定义智驾的 1.0 时代进入 2.0 时代,核心是实现端到端的智驾大模型。
而要做到端到端,就面临着三个门槛:
无高精地图、前融合,以及强大的规则算法做支持。
首先是业内喊了一年多的去高精地图,关注重点普遍集中在覆盖面积、采集成本和地图鲜度上,但是即使解决了上述问题,不去掉高精地图依旧无法实现端到端。
在这一点上,英伟达和元戎启行表达了相似的观点——真正的端到端大模型是拟人的,擅长逻辑推理而非计算。
目前的高精地图,本质上还是给机器看的地图,用的是机器语言。而端到端大模型的思考方式更类似于人脑,在处理机器语言的能力上非常薄弱,看不懂高精地图。
端到端智驾大模型需要的地图,是人类也能看的懂的导航地图。
元戎启行推出的端到端智驾平台 IO,使用的就是腾讯提供的导航级地图。最近传闻即将在华落地的特斯拉 FSD,也被曝出将在百度提供的车道级导航地图上进行部署。
端到端落地的第二个前提,是多传感器信息必须要做前融合。
在以往的智驾方案中,各个传感器中收集到的信息会先用人工规则筛选一遍,再将人类认为有用的信息进行融合,最后交由智驾系统使用。
但是端到端大模型和大脑一样,对于人类程序员来说像一个「黑盒」,如果还是按照人工规则先筛一边传感器的信息,无疑会遗漏掉很多对于端到端大模型有用的信息。
而先融合的方式,能在成本不变甚至减少的情况下,大幅提升传感器信息的准确性。
基于该理念,安霸做了一款基于 CV3 中央域控的 4D 成像雷达,在毫米波雷达上不放任何处理芯片,将雷达收集到的信息全部传回中央域控,由高算力的中央域控融合处理多个传感器的信息——通过这种方式,可以大幅提高毫米波雷达的感知能力。
想要做好端到端智驾方案的第三个条件,是车企具备强大的基于规则算法的智驾方案。
虽然端到端智驾大模型成功的标志,就是尽量减少人工编写的规则算法,但是对于端到端智驾系统而言,则离不开上一代基于人工规则的智驾算法。
元戎启行和安霸都提到,目前特斯拉的智驾系统后台同时运行着 V11(规则算法)和 V12(端到端大模型)两套方案,在不同的路况下会切换使用。
两套方案并行的原因主要有二:
第一点,是两套方案的能力互补。
贴近人脑的端到端大模型,具备更强的推理能力和博弈能力——比如遇到突发情况时,规则算法只会根据规则死板执行命令,而端到端则可以根据理解灵活操作。
基于人工代码的规则算法,在计算能力上更具优势——比如在泊车时,规则算法可以通过精确的计算,选择最完美的倒车入库路径,而端到端则会像人一样边开边调整,不断揉库。
第二点,是目前的端到端大模型才刚刚起步,需要不断学习。
吴新宙用了一个很形象的比喻来描述端到端大模型和上一代规则算法的关系,端到端大模型天赋更高,未来可以成为博士,但是在成长的过程中,也需要小学老师、初中老师去教导,而这些老师,就是规则算法。
吴新宙和周光也给出了共同的预判:
目前的端到端大模型处于起步阶段,还需要不断成长才能趋于完美,因此在未来几年,端到端大模型和规则算法两套方案相辅相成应该是大势所趋。
AI 定义智驾 1.0 时代对算力和数据等硬实力的需求,或许可以通过供应商提供的数字基建来解决。
但是想迈入 AI 定义智驾 2.0 时代,如何去高精地图、如何做好前融合,有没有强大的规则算法能力,则是对车企和智驾供应商软实力的考验。
03、大模型不是终点,只是 AI 时代的开端
在和多家智驾产业链供应商交流之后,还有两个不那么「技术」的感受。
第一个感受,是端到端大模型并不会是 AI 定义汽车的终点,而只是个起点。
元戎启行的分享中提到,端到端大模型虽然在推理能力上和人类非常类似,但是某些情况下的学习能力依旧不足。
比如在复杂的路口时,人和端到端大模型都可能会走错路,但是人再一次绕回这个路口时,能立即排除一个错误选项,而端到端大模型不行,大模型要学会一个东西,可能要在云端经过成千上万次的训练。
要想提高端到端大模型的表现,还有很长的路要走。
第二个感受,是业内也在探索大模型在汽车行业的更多应用场景。
英伟达汽车行业数据中心业务副总裁 Norm Marks 分享了六大类英伟达正在应用大语言模型的场景,涉及智驾、智舱、数字工厂、开发设计等多个领域。
除了英伟达以外,安霸也进行了类似的探索,推出了生成式 AI 芯片 N1,算力水平达到了英伟达 A100 的 70%,但功耗仅有 A100 的 10%,50 瓦的功耗让车端运行大模型成为了可能。
目前车端搭载的普遍为云端大模型,存在隐私和稳定性两方面的缺点,因此只能用于娱乐、对话等功能。
而当通用大模型部署到车端本地之后,就可以参与一些更重要的工作中去,比如帮助智驾大模型做一些判断等。
这种在应用场景上的探索与迷茫,一定程度上说明目前 AI 的技术发展速度已经超过了实际应用场景,存在着一定的「泡沫」。
但是反过来看,当技术超前到一定程度之后,必然会从底层重塑整个汽车行业。就像 2001 年互联网泡沫破裂之后,互联网反而重塑了整个人类社会的生产方式。
目前端到端大模型在汽车上的应用,必然只是 AI 定义汽车时代的开始。