小鹏汽车已经不再用“1024 Day”来称呼自己的技术发布日,但依然在10月24日这天做了一场关于AI技术的发布会,主要是对小鹏P7+的智驾和智能座舱的AI技术做了分享。
活动内容并不复杂,就是介绍了一下小鹏P7+上面即将推出的一些新技术、新功能,用了现在流行的AI、端到端这些词汇,听上去好像各家都差不多。但是里面有一些小鹏汽车对智驾路线的思考还是值得记录一下,也能看到小鹏是如何看待自己的技术迭代。
首先我们知道,在5月份的时候,小鹏汽车就说自己发布国内首个量产上车的端到端大模型,成为全球唯二量产端到端大模型的车企。但是真正落地,各家车企都是争先恐后,比如华为ADS 3.0说自己感知模块用了端到端,而理想汽车也说自己用了One Model的端到端,甚至赶在了小鹏这次发布会的前一天做了“全量推送”。
但是小鹏汽车副总裁、自动驾驶负责人李力耘博士分析了目前行业主流的三种端到端发展路线,认为各个路线优缺点明显:一种是通过大量规则小模型堆叠的 “大模型”,其需要大量的优秀规则工程师;一种是“车端大模型”,即直接将端到端模型部署于车辆上,虽然见效快,但受限于车端算力,且随着后期训练数据量的增加,容易陷入瓶颈;最后一种便是云端大模型(foundation model),其参数量是车端模型的几十倍甚至数百倍,这是单纯的车端大模型所不可企及的。
按照我的理解,第一种大概就是说分段式端到端路线,技术实现上比较简单,也可以说是端到端;第二种路线则是理想汽车的双系统中的“系统2”,也就是视觉大模型,一个22亿模型参数量的端侧大模型。第三种则是使用了云端大模型的路线,也就是小鹏和华为的路线。
从李力耘的角度来看:“尽管选择前两种端到端的技术路线都能带来一定成效,但从智驾竞争的终局来看,布局云端大模型才是制胜关键。而小鹏汽车早在预研端到端大模型的阶段,就笃定要先构建一个强大的‘云端大模型’,这也与全球头部AI企业——OpenAI所选择的路线不谋而合。”
怎么样理解云端大模型的应用呢?根据小鹏给出的示意图,基本可以理解为云端大模型做出来以后会“知识蒸馏”成车端的端到端模型,再上车应用。这样的优势在于因为云端大模型足够大,信息量足够丰富——小鹏云端大模型的参数量将多达车端参数量80倍,如此大的参数量意味着云端大模型能够全面吸纳智驾数据,不遗漏重点信息细节——这样“蒸馏”出来的车端大模型上限也就更高。之后车辆的驾驶数据、离线强化学习也可以反馈给云端模型,不断优化。
因此,小鹏表示智驾还是需要更大的训练规模。目前,小鹏云端大模型的训练效率已提升了2.6倍,2025年小鹏云端的算力将会达到10EFlops以上。
当然,从小鹏汽车选择的纯视觉路线来看,轻雷达、轻地图的智驾方案本身也要求高算力大模型。比如相较于传统的激光雷达方案,小鹏AI鹰眼视觉方案的摄像头信息量是前者的80倍,而摄像头能够感知的语义和颜色信息是其100倍,摄像头的反应速度也是其3倍。这本身就要求更大算力、也要求大模型在处理方式上的不同。
按照小鹏汽车的说法,小鹏P7+的AI鹰眼视觉方案在体验上已经可以和搭载激光雷达的现款车型的Max版本保持一致、同步更新。这或许也意味着,今后小鹏汽车是完全能够以同一套纯视觉方案来替代所有之前的智驾方案,只要都是2颗Orin X的芯片,理论上都能够实现接近的体验——之前有激光雷达的车型相当于不用激光雷达的数据了。
此外,和特斯拉提出的设想一样,小鹏的云端大模型也是国内首个泛机器人领域的基础大模型,不仅可以应用在自动驾驶领域,机器人、飞行汽车等领域均适用,相当于“一个眼睛就可以感知整个世界”。
那么使用端到端的智驾,具体和普通的高阶智驾有什么区别呢?小鹏表示,一大亮点是可实现“0速激活,原地启动”,其次是针对小路绕行、跨车道变道、汇入汇出口等复杂场景,P7+将实现老司机般的操作。另外,在切换导航、更改目的地、更改路线等特定场景下,新版本做到了无缝切换,实现智驾无断点。换句话说,基本上依靠端到端大模型,车辆就更像是真人驾驶的策略,而不需要根据行驶规则来操控。
当然,实际使用体验还要等一段时间才能知道,而且这个早期版本的端到端智驾方案还需要更多的迭代,毕竟只有真正大量上路才能知道大模型需要哪些调整。就好像特斯拉在发布FSD V12之后九个月才开始给用户推送正式版本,而直到FSD V12.5版本,用户才开始能够感知到“老司机”的特征。并且即便如此,每个版本的驾驶风格差异都会让驾驶者体验有所差距。
总之,小鹏P7+的AI智驾上路之后并不是端到端智驾的终端,反而是一个新的起点,只能说端到端的技术路线大家确定了,可是要走向哪里,大家都只能拭目以待。
文 | JackieLXX
图 | 网络