2024年,各汽车厂家在智驾方面宣传最多的就是端到端。什么是端到端?端到端有哪些优劣势?主流的端到端技术是怎样的?今天的三问三解我们就聊端到端。
端到端(End-to-End)
端到端指从发送端到接收端的整个通信过程,强调的是直接的、无需中间过多转接环节的通信方式。
在汽车智驾领域,端到端,一端是输入端,主要是传感器,包括摄像头、激光雷达、毫米波雷达等,并包含了车辆的自身状态,如位置、速度、导航等;另外一端就是输出端,直接输出车辆行驶轨迹,即传感器映射出来的车辆行为;端到端的中间,就是AI模型,这个模型直接从输入端获得数据并输出结果,而不需要人为地分多个中间步骤进行特征提取和处理。
用通俗的说法来说,可以理解卖家直接对接买家,没有中间商赚差价,效率更高,信息对接更透明。
端到端有什么优劣势?
此前的模块化架构是多步骤规则式,感知摄像头/激光雷达/毫米波雷达在获取到信息后,将信息提供给决策平台,决策平台依据系统设置的规则来预测并规划,最后由控制系统去执行。由于感知、规划及执行系统相对独立,且每个步骤都要占用一定的计算时间,整体系统的响应较慢,延时较高。
举例来说,模块化架构在行驶时,遇前车制动,在前车已经开走后,系统可能依然在制动,体验不佳。且模块化架构的上限低,出现规则过多或规则之外的情况,车辆就无法计算出路线,导致“原地发呆”,从而需要人类驾驶员的接管。
此外,模块化架构还存在信息损耗、执行低效、复合误差、规则难以穷尽等问题。
而切换到端到端架构后,通过大模型将感知、预测、规划这些流程整合为一,中间流程大幅减少,延时更低,误差更小,通过大量的数据训练,端到端不需要写规则,也不需要处理极端场景就可以做到拟人驾驶,这种技术大幅提升了智驾系统的上限,这就是端到端。
而且端到端的优势不止于此。在构建好端到端模型后,数据驱动下,软件迭代速度更快,整体学习能力更强,应对场景的能力提升速度更快。同时,端到端模型在训练过程中直接学习输入和输出之间的映射关系,能够更好地捕捉数据的内在规律,从而提高预测的准确性。同时,减少中间环节也降低了错误发生的概率,提高了系统的可靠性。
但端到端也不是没有劣势。在搭建端到端架构时,构建一个高效的端到端深度学习模型需要大量的计算资源和专业的技术知识,模型的训练和优化难度很大。
同时,为了实现准确的端到端,需要大量的高质量数据来训练模型。如果数据量不足或数据质量不高,可能会导致模型的性能下降。这也是为什么我们总能在智驾榜中看到用户的行驶里程,这些行驶里程中遇到的各种高质量复杂场景,将其标记、分类,作为端到端模型的训练数据,当积累了足够量的数据,端到端模型才能较好的运行。
除了训练数据量的要求外,端到端模型还需要强大的算力才能支持。
主流的端到端技术是怎样的?
以某品牌汽车为例,其智驾方案采用端到端+VLM双系统方案,用这2个系统解释人类的思考和决策过程,使得其智驾方案具备拟人的驾驶能力。
系统一属于快系统,即无意识,也不耗费脑力,依赖直觉和本能就能判断,也就是端到端,主要面对日常驾驶处理信息,使辅助驾驶具备“老司机”的驾驶能力。
VLM是系统二,全名视觉语言模型,VLM模型着重于图像和场景的理解,作为智驾决策规划输入,让车辆的行为更合理。这套模型主要应对复杂场景下的逻辑思考和决策,当系统一面对无法理解的场景时,系统二来决策并辅助系统一完成场景应对。
举个例子来说,日常行车,在车道线内跟车,红灯停、绿灯行,应对并线车等,完全由系统一来完成,但面对诸如限时公交车道、施工路段、潮汐/可变车道等复杂交通环境,系统二能“看懂”公交道的通行时间,施工路段的绕行路线等提供更准确、可靠的决策依据,从而提高了行车的安全性。
但端到端+VLM双系统是相对独立的两个模型,而VLA模型则更进一步,被视作端到端的2.0版本。
VLA是融合了视觉、语言和动作的多模态大模型,最早见于机器人行业。VLA将端到端、VLM两个模型合二为一,能够根据感知直接生成车辆的运动规划和决策。但多模态大模型的参数量也更多,除了拥有高效实时的推理能力外,同时还要有大模型认识复杂世界并给出建议的能力,这就对算力芯片提出更高的要求。(朋月)