电子发烧友网报道(文/黄晶晶)2024年1月,特斯拉开始大规模推送FSD V12,从此“端到端”智能驾驶在汽车行业兴起。小鹏、理想、智己、商汤等公司也纷纷推出自家的端到端智驾方案。
特斯拉的FSD是一套包含感知、规控、执行在内的全链路自动驾驶软硬件架构。而FSDV12采用的“端到端”的自动驾驶系统,能够高度模拟人类驾驶行为,实现感知决策一体化。近日,特斯拉正式亮相的Robotaxi车型Cybercab,取消了方向盘、踏板和后视镜,高度依赖于特斯拉的FSD完全自动驾驶能力。
“端到端”最鲜明的特点便是基于AI模型对从传感器到处理器、执行指令等进行判断,不需要人为干预中间步骤。当前各家端到端的技术路线有所不同,都在积极探索。行业人士指出,预计2025年国内自动驾驶端到端方案大规模量产上车。
理想11月,在2024广州车展上,理想汽车公布了全新一代智能驾驶技术架构——端到端+VLM双系统的最新进展。
目前,理想汽车研发团队正在加速实现端到端+VLM系统的“车位到车位”能力升级,正陆续推送给万人内测用户,并将逐步覆盖理想全国478家门店的试驾车。按照规划,到11月底“车位到车位”能力将随OTA6.5版本车机系统推送给全量AD Max用户,升级后的车辆将支持全国高速收费站ETC自主通行,自动将导航终点匹配至AVP代客泊车路线。
理想汽车提出的端到端+VLM双系统架构,采用One Model一体化端到端,是首次将VLM模型部署至车端量产芯片。VLM视觉语言模型是世界上第一个成功部署在车端芯片的大模型,具备应对复杂场景的逻辑思考及决策能力。VLM视觉大模型可以帮助智驾能够更精准的识别应对坑洼、减速带、施工、丁字路口、夜晚无灯、主辅路进出等场景,做到提前减速,安全通行。
相较于无图NOA智驾,它具有感知和规划两个模型,中间还需要其他规划介入。而一体化端到端模型之下,信息传递不再需要人来设定规则,中间无需规划,直接传感器输入再通过端到端模块输出。那么,这样的智能驾驶效率更高、更拟人更聪明。
商汤11月27日,在2024“绝影实力AI DAY”上,面向智能驾驶,商汤绝影构建了“车云一体”的产品矩阵,发布涵盖高速、城区以及泊车等全场景的高阶智驾、端到端智驾等绝影量产智驾产品体系,同时全新升级行业标杆级别的“开悟”世界模型,以此打造坚实的数据基础设施。
本届“绝影实力AI DAY”上,商汤绝影全面展示了基于J6E、J6M、Orin等不同算力平台打造的全场景高阶智驾、端到端智驾等绝影量产智驾产品体系。商汤绝影表示,其智驾量产交付也在稳步推进,基于J6平台的智驾方案预计2025年第二季度将量产交付,而量产端到端智驾方案则预计会在明年年底量产落地。
商汤绝影全栈量产智驾解决方案覆盖高速领航、城区领航、泊车辅助等各类场景,满足全场景智驾需求。2022年底,商汤科技及其联合实验室提出行业首个感知决策一体自动驾驶通用模型(UniAD),2024年,商汤绝影实车部署面向量产的真·端到端自动驾驶解决方案UniAD。
为了增强端到端自动驾驶方案可解释性和交互能力,依托多模态大模型强大的常识理解能力,商汤绝影已研发出新一代自动驾驶大模型DriveAGI,是目前最贴近人类思维模式、最能理解人类意图并有最强的解决驾驶困难场景能力的下一代自动驾驶技术。
商汤端到端自动驾驶解决方案更高的能力上限,综合理解复杂交通环境,泛化能力强,灵活度高,驾驶行为更贴近人类习惯。更快的迭代效率,基于数据驱动,高效解决行泊场景中感知和决策长尾问题。更低的系统成本,例如纯无图,无需全量或轻量化高精地图,仅需导航信息。纯视觉,无需雷达/激光雷达的信息输入,仅需摄像头视觉信息输入。
为了强化端到端的高端智驾竞争,商汤绝影全新升级并发布了“开悟”世界模型。世界模型最基础也是最核心的能力是生成高质量视频数据,高质量数据的关键在于“真实”。基于多模态大模型打造的绝影世界模型,能够理解真实世界的物理规则、交通规则,生成的视频数据也更加逼真。现场展示的“开悟”生成视频案例中,晴朗天气下,汽车、路灯都是有影子的,右转车辆会主动让行优先级更高的直行车辆。在真实的基础上,“开悟”生成的场景视频,时间最长为150秒、分辨率可达1080P、视角可以实现11V,是行业首个同时完成上述指标的智驾世界模型。
通过多模态大模型,“开悟”世界模型可以支持多样化的自动驾驶场景及Corner case的可控生成。目前商汤绝影基于1024类场景,能够泛化出更多的平行世界,打造了千万级的生成场景库,预计2025年对行业开放。
智己10月28日,智己汽车正式宣布IM AD 3.0率先完成从“最像人”到“有直觉”的断代式进化,为智驾系统率先注入人工智能生成的“直觉”,正式迈入“直觉”智驾新时代。依托智己汽车与Momenta联合打造的“一段式端到端直觉式智驾大模型”,智己汽车已经成为行业内同时具备L2、L3、L4级智能驾驶量产能力的品牌。今后,随着相关法律法规逐步出台,智己用户将享受行业领先的自动驾驶体验。
IM AD3.0以更接近人脑结构的思考方式,生成本能反应主导的直觉决策能力。智己智驾大模型,无需人为定义感知到规划接口,可学习全局信息、隐含信息。尤其在应对突发状况时,能够“脑补”出看不见、看不全的路况信息,像人类高级思维一样可以做出瞬间预判,既人们通常所说的“直觉”或“下意识反应”;即使在最复杂的交通环境中,都做到真正老司机般“看路开车”的驾驶方式。
“一段式端到端大模型”取消了分模块智驾结构,将感知与规划整合进一个大模型,通过数据飞轮提供的海量优质数据,训练一个完整的神经网络,分析全局信息、隐含信息,学习优秀的人类驾驶行为,从原始数据输入到规划路径输出,形成人脑高级思维的直觉反应。同时,IM AD智驾大模型还有“安全逻辑网络”来保证直觉决策的安全性,让直觉驾驶的行为既高效、又恰当、更安全。
据悉,智己汽车L2+级高阶辅助驾驶,已于10月在全国范围内开通全系车型“无图城市NOA”,做到“全国都好开、全场景都敢开”。今年6月份,智己入选全国首批“L3准入及路试联合体名单”,预计将于2026年正式具备L3级自动驾驶方案的量产条件。L3级自动驾驶也已进入量产倒计时。智己汽车预计将在年内获得首批“L4级无驾驶人道路测试牌照”,实现无人驾驶车率先上路。
小结端到端智驾的本质是充分利用AI大模型,并结合软硬件对智驾功能体验进行的智能化升级。今年5月,小鹏汽车已实现端到端大模型量产上车,成为全球唯二实现端到端大模型落地的车企。小鹏汽车董事长、CEO何小鹏曾表示,端到端大模型不单单意味着要自研软件和一些简单的硬件,而是自动驾驶从云端到车端、从芯片端到电气端,包括EA架构都需要实现全域自研。也就是说,这对于车企和相关供应链配套厂商的软硬件能力带来极大的挑战。同时,端到端的AI大模型既聪明又有“直觉”,未来进一步进化,还需要不断升级安全能力。