把强化学习(RL)应用在智驾领域会咋样?
RL 通俗理解,很像小时候学骑自行车,学骑自行车不是靠背口诀学会的,是摔出来的。今天这么骑摔了,知道不能这么骑,明天那么骑摔了,知道不能那么骑。
通过不断的试错,排除错误选项,和奖励(这么骑,没摔!),保留正确选项,最后学会了骑车。
2016 年,DeepMind 说,RL 用来下围棋会咋样?于是就有了那个著名的第 37 步。当 AlphaGo 下出第 37 步的时候,所有人类围棋高手的第一反应是,哦,AlphaGo 出错了。
但事后证明那是一步预期之外的、极具创造力的下法,被人类棋手走出的概率只有万分之一。
2024 年的 OpenAI o1 和 DeepSeek R1 这些推理模型,把 RL 的魔力给到了更广泛和通用的领域。
如果把 RL 应用到智驾领域,模型会不会开出哪怕是老司机都预期之外的惊喜走位?
从很多方面来讲,其实都是可能的。
比如,模型拥有 360 度覆盖的无敌视野,盲区为 0,这和人通过内外后视镜掌控的视野在范围和延迟上都不是一个级别。
如此丰富的环境上下文信息,能够帮助模型理解全局动态,思考更深层次的动态关系和潜在风险。
比如,经过足够多轮到训练(AlphaGo 和 LLM 都是海量训练的产物,只要有那个 aha moment 就值得),模型也许会精确感知人类生理限制难易触达的车辆动力学边界,结合侧滑角和转向角动态调整,不是两段式 AES,是漂移 AES。
或者是综合传感器、执行器和各项数据,在湿滑路面的非线性控制。
——但是,为什么你没有听到哪个智驾玩家将 RL 用在智驾上呢,哪怕在营销一贯领先工程的中国市场?
因为智驾是一个非常特殊的领域,这里有很多的问题待解,这条先不展开了。