随着 L2+自动驾驶逐步渗透,行业向高阶自动驾驶发起新一轮进攻。
整个算法架构也随之不断演进:
从独立模型过渡到多任务学习;
从传感器数据后融合到前融合;
从规则主导转变为深度学习;
…
另外,端到端成为各车企、Tier1 绕不开的技术关键词。
比如理想发布「端到端+VLM」的全新模型架构,打出快慢系统的组合拳,能让 AI 做出拟人化的驾驶行为。
而这些模型性能的进阶,是基于底层开发工具链足够强大。
具体要求是,能够向更高效的网络设计与算法优化不断靠拢。
这是 NVIDIA 的优势。
在近期《汽车之心·行家说》NVIDIA 专场中,作为全球领先的 AI 计算助推者,以自动驾驶开发平台和数字孪生仿真平台等推动行业发展,具体包括以下内容:
提供多传感器数据融合与同步传输,实现快速感知与准确决策的相机全链路方案;打造高效并行计算、实时 AI 推理于一体的软件开发平台 NVIDIA DriveOS™;强算力且算力灵活调配,集成多种智能汽车功能的车载计算平台 NVIDIA DRIVE Thor™;具备先进渲染技术,提供高逼真虚拟环境进行模型训练、测试与验证的数字孪生平台 NVIDIA Omniverse™;……
这一整套软硬件耦合的开发体系,贯穿从数据处理到仿真训练的全过程,在此基础上,开发者们能够高效进行研发任务,并实现超越预期的高性能表现。
而如何熟悉并快速上车这一系列工具,突破自动驾驶的开发瓶颈,在《汽车之心·行家说》NVIDIA 专场中,NVIDIA 及丽台科技的技术团队对此做出了细致解答。
01、聚焦 Multicast 应用,打造相机全链路方案
NVIDIA 专为自动驾驶打造了一套基础平台 NVIDIA DriveOS,使汽车能够高效处理海量传感器数据,利用深度学习实现对环境的感知与适应,并满足严格的安全标准。
从针对 Drive Thor 打造的软件堆栈示意图上,可以看到从底层传感器设备开始,到硬件系统,以及软件系统,形成了一套紧密耦合的开发架构。
在软件部分(图示右上角),包含一系列重要组件,比如 NVStreams、NvMedia、NvSIPL Drivers 等,它们的作用在于快速、准确抓取传感器图像数据并进行优化处理,这其中要经过一连串硬件引擎来帮助数据转化成对应格式。
例如,从相机抓住的图像帧,经过硬件引擎——ISP(图像信号处理器)完成处理,然后传输给 VIC(视频输入控制器)引擎进行视频化操作,最后传输给显示器。
由此,对于复杂的相机全链路,往往包含大量复杂的数据信息,如何把这些硬件引擎有效串联,实现信息传输成为一个挑战。
这其中就涉及到两个重要组件,一个是 NVStreams,另一个是 NvSIPL。
前者能够将数据流水线各部分串联,实现数据的无缝传输,以及不同引擎之间的协同工作;后者能够初始化和配置图像传感器,高效采集数据,进行图像预处理等工作。有这两个组件作为基础支持,可以实现 Multicast 的强大应用。
所谓 Multicast,指的是一个参考应用程序,它展示了使用 NVIDIA DriveOS SDK(包括但不限于 NvMedia SIPL、NVStreams、CUDA 和 TensorRT)构建相机全链路并实现无缝数据传输的端到端解决方案。
在 Multicast 应用场景上,支持跨进程、跨线程、跨 SoC 等多种复杂的通信方式。
从跨进程示例中可以清晰看到,生产者进程中有两种数据源,分别来自真实采集与虚拟数据,到达消费者进程后,数据会进行多种处理方式,比如通过 VIC 模块转变图像格式到达 CUDA 模块进一步处理,或者通过 CUDA 模块修改图像数据后传输到下游 Encoder 模块进行编码等。
事实上,由于各车企、Tier1 的产品特性、工具需求各不相同,这要求 Multicast 必须满足扩展性强,灵活性高的特点。
由此,Multicast 的核心设计思想为两个字,分层。
从上到下,依次是展示层、业务层、传输层,其中,展示层扮演指挥者角色,负责构建数据流水线并管理整个系统的生命周期;业务层则是将数据放到对应模块中进行格式转化;最后传输层负责链路建立与数据通信。
由于采用分层设计,各层级各司其职,能减少产生任何数据、业务方面的耦合,从而适用于更复杂的数据处理链路。另外,利用 Multicast 还能有效检测出系统中潜在的性能问题,帮助系统快速完成优化。
值得一提的是,Multicast 在自动驾驶应用领域能够释放出诸多特性,比如:
Stitching(图像拼接),将多传感器数据拼接在一起传输给显示器;Car detection(车辆检测),能够将传感器检测到车辆数据准确画框标识;DP MST(多流传输),对多通道的传感器数据进行处理后传输到不同显示器上;Late attach(后期连接),在某个特定的流程或系统运行的后期阶段进行连接或附加操作;Multiple element(多元素处理),多个输出输入端口,实现数据的灵活处理;Sc7(待机模式),采用低功耗模式优化系统启动时间;Sentry mode(哨兵模式),在停车模式下传感器对车辆周围情况进行实时检测,将数据进行脱敏处理后上传到显示器。NVIDIA Multicast 这套强大、灵活的应用程序,贯穿了车辆在自动驾驶、泊车领域的多个维度设计,其开放、可扩展性强的特点能够让各车企、Tier1 开发者们实现便捷、高效的定制化服务。
02、端到端技术浪潮下,完成 DRIVE Thor 的高效部署
端到端给自动驾驶领域点了一把火,这种全新架构,对数据、算力、算法三驾马车提出了严苛要求。
由此,继 NVIDIA DRIVE Orin™ 在自动驾驶领域得到广泛应用后,NVIDIA 又推出了新一代车载计算平台 Drive Thor,从底层工具链上引领行业向高阶自动驾驶递进。
不同于以往的 NVIDIA Ampere 架构,Drive Thor 基于全新 NVIDIA Blackwell 架构,诞生出了全新特性:
针对 LLM/VLM 应用进行优化,最高达到 2000TOPs 的 FP4 算力;Tensor 推理引擎更新到 10.x 版本,进行更好的图优化策略;采用 L2 Tiling&Chaining 技术,实现更好优化与性能加速效果;引入灵活 GPU 调度方案,能够支撑起端到端+VLM 的架构设计;……
实际上,从特性回溯,可以看到 Drive Thor 是完全适用于端到端模型的计算平台。之所以在各维度上得到优化与提升,是因为它需要应对更复杂、非结构化的大量场景,这是一个不断迭代的过程。
自动驾驶以往面临传统常规道路,模型参数可以压缩到最小,只需要 10x TOPS 的算力;而面对一些施工道路的非结构化场景,采用的是搭载 Orin 平台的 BEV&Transformer 架构设计,减少了对高精地图的依赖,需要 100x TOPs 算力;面临随机性强的执法场景,算力需求又提升到一个新的量级,到达 1000x TOPS,才能把「端到端+VLM」这类「通用能力」模型跑起来。另外,Drive 平台对大模型的支持情况已经覆盖全面,从 Drive Orin 的广泛应用中,可以明确看到无论是 LLAMA、GPT 还是国内百川大模型等,都能释放出不错性能。
理想已经应用了「端到端+VLM」的双系统智驾方案,由端到端模型担任快系统,能够快速接收传感器输入,并直接输出行驶轨迹用于控制车辆,应对驾驶车辆时 95% 的常规场景。
剩下 5% 的复杂场景,如临时施工、交通管制等,由「VLM」的慢系统实现,它能够进行深入理解产生逻辑思考,最后输出决策信息给快系统。
双系统相互配合,从而确保了自动驾驶能高效处理多数场景,并覆盖复杂路况。
当然,要驾驭这套模型架构,算力平台不仅要有充足的算力储备,还需要支持灵活配置「算力调度」策略。
在执行端到端任务时,优先级往往更高,对于算力调度需要及时,而在处理低速一些极端场景时,优先级更低。同样,在进行一些座舱交互、娱乐功能时,就可以把自动驾驶占用的 GPU 让出来。
这种算力调度的需求落地,在 NVIDIA Drive Thor 上能被充分满足,并提供了两种方案。
第一种是 MIG 方案,对算力、L2 cache、带宽进行切分,实现 ADAS/LLM 域的「硬隔离」,不同任务在运行时相互独立,不受干扰。
第二种是 GPU 分时调度方案,实现 ADAS/LLM 域的「软隔离」,应用上可以独占片上算力、带宽。正如「端到端+VLM」方案上,在不同行车场景时赋予不同任务优先级,从而实现算力的灵活调度。
除了支持这类模型架构,NVIDIA 自己也搭建了一套 Model room,其中包含车道检测、多模块设计等相应组件,NVIDIA 都做了深度优化,用户可以在优化组件基础上构建出自己的大模型方案。
目前,Model room 已经支持 10+个纯视觉模型、2 个视觉+激光模型,以及一个端到端模型。在优化层面做了 INT8 精度量化、4:2 结构化稀疏、量化稀疏 finetune 等推理训练。可以看到,Model room 在当前纯视觉方案基础上,已经可以做到比开源的视觉基线要更好一些。
而对于端到端这种全新架构,在模型部署上必然会面临一些新挑战。以上海 OpenDriveLab 提出的 UniAD 架构为例,相比 BEV & Transformer 架构,它在 perception 基础上增加了 TrackFormer、Motion Former、OccFormer 和 Planner 等相应组件,中间通过 QKV 机制进行通讯。而从 SparseDrive 公布的端到端架构中,把建图感知与规划预测分为两个模块,中间进行信息传递,对于 Transfomer 结构依然存在一定依赖。
所以,可以把端到端架构特点总结为四点:
更多的 transformer 结构 (特别是 PNP 部分)为融合多模态信息引入很多 shortcut模型更大,结构更深输入量纲不统一对应的,NVIDIA 在 Thor TensorRT(10.x) 版本上引入了针对性解决方案,比如 Blackwell Flash Attention 方案、新一代图优化编译引擎、L2 cache Tiling&Chaining、新的混合精度类型等,帮助对应结构进行有效优化。
03、OpenUSD 打通数据格式,利用 Omniverse 构建数字工厂
自动驾驶模型建设离不开仿真环节,作为自动驾驶开发领域中的重要一环,它需要和其它环节有机结合在一起,形成一个数据驱动闭环。
这就要求,仿真软件需要具备强大的兼容性,并且能够构建出高质量场景库,泛化出更多场景。
NVIDlA Omniverse 平台集成了 NVIDlA 20 余年的技术结晶,在自动驾驶仿真领域以及汽车数字工厂建设上,都迸发出强大势能。
首先,NVIDlA Omniverse 平台基于 OpenUSD 这一技术基础。它是一种统一数据格式,能够把传统 CAD、Python 等不同的软件语言全部兼容转化成一种语言,然后将数字资产全部转化到 NVIDlA Omniverse 平台进行下一步的可视化作业。
这个强大应用进行生态打通后,可以释放出多种特性:
联接多样化工具,包括 AR、VR、DCC 等各种类型的软件工具及数字资产;利用多种工具实现定制化工作流程;分层化设计,实现多人协同工作,并不局限于一种平台生态。除了 OpenUSD 之外,NVIDlA 还拥有光追渲染的 NVIDIA RTX™ 技术、加速计算能力以及生成式 AI 等技术储备,都集成在 NVIDlA Omniverse 平台中。
在自动驾驶仿真领域,基于 OpenUSD 的数据格式场景,Omniverse 平台可以将大模型对接进来,实时生成可视化数据,展示碰撞报告等,在此过程中,还可以对虚拟场景进行多维度设置,比如车速、自然天气、极端情况等,从而高效帮助模型进行优化,节省人力、物力成本。
在建设数字工厂领域,Omniverse 平台通过虚拟场景的提前验证与排查,改进生产线的效率问题。
在通用汽车案例中,就通过 Omniverse 平台构建了统一的数据工作流程,开发者可以在原有熟悉的软件中进行设计作业,并且通过 OpenUSD 与 Omniverse 平台完成实时协作,进而减少数据传导时间,简化工作流程。
更具体一些,A 同事在对汽车模型进行调整,包括位置移动、布线摆放等;B 同事通过 UE 对场景进行搭建及纹理生成,C 同事在 Omniverse 平台中进行实时渲染和查看,三者操作可以实时进行,一旦发生问题可以及时反馈解决。
这意味着,工作流程基于 Omniverse 平台得到重新构建,以往是以往是从建模软件到材质软件,再到仿真软件的层层过渡,现在所有软件通过统一 USD 格式,完成实时的审查、协作以及评审工作。
这种降本增效能力直接反馈到数据增长上,比如宝马建设全球虚拟工厂规划及运营,实现设计冻结时间节省了 98%,计划进程速度提升了 30%;奔驰打造虚拟装配线,实现建设时间缩短两倍,能耗上节约了 20%。
实际上,Omniverse 不仅是工具,而是一个开发平台。它需要多人协同,一同将这个框架扩展的更加完整,生态更加丰富。
总之,一个理想的工具链需满足的核心要求是,高效。
自动驾驶级别越往上走,开发难度成指数级增长,高效二字变得越来越难实现。
但 NVIDIA 凭借多年技术累积,打造出一系列稳定、可靠的软硬件工具箱,无论是解决信息传输问题的相机全链路方案,还是比 Drive Orin 性能更进阶的 Drive Thor,亦或者集成 20 年经验的数字孪生 Omniverse 平台,都从不同维度按下了研发的「加速键」。
由此,自动驾驶开发者们能够更加专注于技术的创新与突破,而不必为繁琐的工具链问题所分心。
*与 NVIDIA 产品相关的图片或视频(完整或部分)的版权均归 NVIDIA Corporation 所有。