端到端之后,VLA会不会再次成为智驾热词。理想财报会也提到了VLA的预研发,元戎今天也解释了VLA的技术逻辑:
1、纯视觉的端到端(VLM)缺乏可解释性,无法解释驾驶决策逻辑。碰到潮汐车道、限行时段等罕见路标/边缘场景难以用常识理解读懂,这种情况下很难推理出好的驾驶决策。
2、VLA采用多模态训练,除了视频数据训练,我们还引入了语言模态训练、行为模态训练。VLA模型可以通过预训练的方式,从大量的未批注数据中进行训练,学习语料的通用特征,拥有更多常识。
端到端之后,VLA会不会再次成为智驾热词。理想财报会也提到了VLA的预研发,元戎今天也解释了VLA的技术逻辑:
1、纯视觉的端到端(VLM)缺乏可解释性,无法解释驾驶决策逻辑。碰到潮汐车道、限行时段等罕见路标/边缘场景难以用常识理解读懂,这种情况下很难推理出好的驾驶决策。
2、VLA采用多模态训练,除了视频数据训练,我们还引入了语言模态训练、行为模态训练。VLA模型可以通过预训练的方式,从大量的未批注数据中进行训练,学习语料的通用特征,拥有更多常识。
作者最新文章
热门分类
汽车TOP
汽车最新文章