#理想智能驾驶夏季发布会#理想无图NOA发布会结束了,内容比较技术流,总结一下:

枫烈 2024-07-05 21:40:01

#理想智能驾驶夏季发布会#

理想无图NOA发布会结束了,内容比较技术流,总结一下:

真正实现自动驾驶的技术方案是什么样的?

理想自动驾驶理论来源是《思考,快与慢》理论。诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》中阐述了认知心理学中系统1与系统2的概念,为理解人类的认知模式提供了一个重要框架。

系统1:其实是人根据自己过去的经验和习惯形成的直觉,可以做出快速的决策。系统2其实是一个思维推理能力,人需要经过思考或推理才能解决这种复杂的问题和应对未知的场景。简言之,系统1和系统2相互配合,成为了人类认知和理解世界、做出决策的基础。

系统1和系统2是如何应用到自动驾驶中的?

系统1由一个端到端模型(E2E)实现,直接用来快速响应常规驾驶问题。

系统2由一个视觉语言模型(VLM)实现,里面包含了思考的能力。

我们利用世界模型在云端来验证系统1和系统2的能力。

以上三个系统组成了理想汽车下一代自动驾驶技术架构。

什么是端到端,到底是哪个端到哪个端?它和以往的智能驾驶系统有什么区别?

理想汽车系统1的进化过程:

第一代:NPN。采用模块化的设计,包含感知、定位、规划、导航、NPN等,这一代架构支撑我们在全国100个城市推送了城市NOA功能。

第二代:无图,分段式端到端。只有两个模型组成,分别是感知和规划。最大的变化是去掉了NPN,不依赖于先验信息,让我们真正做到了全国都能开,有导航就能开。

第三代:端到端模型,它是一个One Model的结构,只有一个模型,输入的是传感器,输出的是行驶轨迹。

端到端模型的优势在于:

1、高效传递,驾驶体验更聪明和更拟人。

在无图中有两个模型,模型之间的信息传递我们运用了大量的规则;而到了端到端模型,它是一体化的模型,信息都在模型内部传递,具有更高上限。用户所能感受到整套系统的动作、决策更加拟人。

2、高效计算,驾驶时车辆会反应更及时和更迅速。

因为是一体化模型,可以在GPU里一次完成推理,端到端的延迟会更低。用户感知到的是,「眼」和「手」协调一致,反应迅速,车辆动作响应及时。

3、高效迭代 ,更高频率的OTA。

一体化模型可以实现端到端的可训,完全的数据驱动。对于用户来说最大感受就是OTA的速度越来越快。

系统2:VLM(视觉语言模型)。整体算法架构是由一个统一的Transformer模型组成,将Prompt(提示词)文本进行Tokenizer(分词器)编码,然后将前视120度和30度相机的图像以及导航地图信息进行视觉信息编码,通过图文对齐模块进行模态对齐,统一交给VLM模型进行自回归推理;VLM输出的信息包括对环境的理解、驾驶决策和驾驶轨迹,并传递给系统1控制车辆。

整体设计中的三个亮点:

1、设计了流式的视频编码器。相比大部分单帧的VLM模型,我们采用的流式视频编码器能够缓存更长时序的视觉信息,这对于物理世界的AI系统来说非常重要,这是一个创新的架构。

2、增加了Memory bank(记忆模块),缓存了多帧历史信息,可以解决超长上下文的推理时延问题。

3、设计了智能驾驶Prompt问题库。系统2会时时刻刻思考当前的驾驶环境,给系统1合理的驾驶建议,同时系统1也可以在不同场景下调用不同的Prompt问题,主动向系统2进行求助,帮助系统1解决部分场景。

0 阅读:23
评论列表
  • 2024-07-06 10:09

    智能驾驶升级,未来出行更安全!