1年前被质疑“无图”,如今成为大预言家

马氪说汽车 2024-11-09 08:26:37

高阶智驾正在进入资本与技术对齐期。

过去自动驾驶资本与技术互不对齐。资本来临时,技术尚未成熟,资本褪去时却正需要加大技术研发投入。

今年下半年,高阶智驾的资本与技术进入对齐期,迎来 IPO 与融资潮。

仅十月,地平线、文远知行先后成功上市,文远知行一度涨幅超 27%,达到 19.73 美元/股。Momenta、小马智行也正在筹备上市中。

11 月初,元戎启行获得了今年自动驾驶行业最大的一笔融资,C 轮融资超 7 亿人民币,由国内头部车企长城汽车集团独家投资。

这是今年少数能拿到产投融资的自动驾驶企业。有业内人士告诉汽车之心,产投与政府投资有本质区别,对于成长型企业,产投不仅投钱,还可以带来产业链资源。

这也拉出高阶智驾的另一个隐喻:自动驾驶需要的不仅是补血,更是造血能力,要依靠量产订单与敏锐的技术思路,才能支撑自动驾驶下半场。

现在,中国高阶智驾市场正上演一场关于狼人、守卫与预言家的中场战事。

01、华元魔,狼人、守卫与预言家

在游戏的中场,所有玩家最在乎两个字——量产。

与之相对应的是高阶智驾的爆发。

今年上半年理想开通城区高阶智驾,随之而来的是销量爆发。6 月份理想销量增长至 4.7 万台,随后一直保持在 4.5-5 万/月,截止目前理想销量已突围 100 万辆,问鼎新势力第一名。

智驾是理想销量再上一层楼的利器。据国家信息中心统计,当前国内 30 万元以上新能源车高阶智驾配备率已接近 100%。

从高阶智驾量产订单来看,方案商华为、元戎启行、Momenta,已经成为了高阶智驾市场的抢单王。

这三家公司的定位恰与狼人杀中狼人、守卫与预言家相似。

狼人杀里每个角色都有赖以为生的技能,映射到智驾,这些技能也决定了中场得分的能力。

引望智能(前身为华为车 BU)更像狼人,引望智能与华为车 BU 联系紧密,采取了技术与商业销售绑定策略,只有全域采用乾崑智驾、鸿蒙座舱以及销售渠道,才会被归纳为鸿蒙智行的范围。

除此之外,引望智能还通过单独销售智驾系统,将高阶智驾能力开放给鸿蒙智行之外的其他车企使用。

除鸿蒙智行旗下车型外,阿维塔 11/12/07、岚图梦想家、比亚迪方程豹豹 8 采用华为 ADS3.0 系统,超过 10 款车型定点被引望智能揽入怀中。

就像狼人牌需要玩家有更多的主动性,华为 ADS3.0 的发布通过 GOD(通用障碍物检测)和 RCR(道路拓扑推理)网络让智驾决策更果断,使得华为乾崑智驾位列高阶智驾表现第一梯队,但问题依旧存在。

华为 ADS3.0 成本不低,余承东就曾表示,华为当前还不具备低成本的能力,还做不了做售价 20 万元以下汽车。

Momenta 在高阶市场的表现更像守卫。

目前 Momenta 与上汽智己、比亚迪腾势、广汽昊铂等十个车企有定点项目。但有一种观点认为,车企走量的车型被主机厂握在手上,而边缘车型被交给智驾供应商,Momenta 来时的路正是如此。除上汽智己外,Momenta 的走量车型并不多。

尽管守卫的忠诚度比较高,但反应稍慢。半个月前,在上汽智己举办的联合智驾发布会。Momenta 才宣布进入到一段式端到端,相比于 Momenta,华为与元戎启行在技术节奏上要更加领先。

引望智能主动但强势、成本高,Momenta 忠诚但技术动作迟缓,而元戎启行就像半路杀出来的程咬金,担任预言家,弥补了前两者的缺点,相比引望智能与主机厂的配合度更高,同时技术节奏也更快。

准确来说,元戎依靠激进地押注端到端,迅速在高阶智能量产中占有一席之地。

在狼人杀中,预言家拥有查验身份的特殊技能,预言家通常会在游戏最后说出真相,亮明身份来提升胜率。

这恰如元戎崛起的轨迹——2023 年前,元戎还没有量产经验,不到一年元戎即将有 3 款高阶量产车型发布:包括长城蓝山、长城一款 MPV,以及 smart 精灵 5 车型。

预言家要有技术嗅觉,2023 年春天,元戎就率先推出了「无图」方案,但周围都是质疑的声音。

当时元戎在上海车展接待了一个核心客户,客户质疑元戎的方案是不是真「无图」,要求板车试乘,直接把测试车运到车企总部,不经过任何调试开始测试。

元戎不仅接受了板车试乘,甚至让测试员把车在城镇、乡村各种毛细血管里测试,做完这些之后,才有了元戎的第一个客户。

狼人、守卫与预言家构成了高阶智驾牌局,与过去隐秘、低调的供应商角色不同,在消费者奔着智驾买车的时代,供应商们从幕后走到了前台。

02、VLA,开启后端到端时代?

智驾预言家最核心的能力是提前预言技术趋势。

在通往高阶智驾的路上,全是分叉路口。

单从软件算法的技术路径来谈,2024 年起,自动驾驶行业经历了结构性转折,由于端到端可以减少模块之间传递信息的减损,打造拟人化驾驶体验,因此行业形成共识——从传统模块化自动驾驶转向端到端。

元戎预言家的定位并非浪得虚名。首先,元戎成功预言了端到端的趋势。

2016 年周光就提出了前融合的概念,将感知模块中的点云与图像融合。

紧接着 2022 年元戎提出「无图」,到了第二年春天,元戎就把「无图」自动驾驶车辆开到深圳试车,并正式发布「无图」方案。

2023 年,几乎与特斯拉 AI DAY 同一时期,元戎将感知和规划这两个模块打通,当年 8 月,搭载端到端自动驾驶系统的测试车就跑在了深圳。

随着高阶智驾战事越发激烈,预言的能力需要越来越精确——比如预言端到端技术新的进化。

最近,业内出现了一种新型的划分方式,即用物理世界 AGI 的通用性来划分端到端,随着端到端技术架构不断升级、系统能处理的东西也更加通用。

端到端 1.0:以分段式、One Model 模型为代表的端到端初级阶段。端到端 2.0 :以 VLA 模型为代表的端到端进阶阶段。

每一个阶段的转折都是一次高阶智驾格局的变迁。在端到端 1.0 时代,能做到 one model、端到端的企业已经寥寥无几,特斯拉和元戎是代表。

如果 端到端 1.0 意味着前端到端,那么谁能掌握 2.0,谁就能拿到后端到端时代的入场券,进而改变市场格局。

变化正在发生在国内第一批拿到英伟达 Thor 的智驾供应商身上。同样,现阶段国内拿到 Thor 样片的厂商并不多,要么是头部主机厂,要么就是少数经英伟达认证过的技术领先型智驾企业。

目前,元戎已经拿到样片,率先针对 Thor 开始了端到端 2.0 系统 VLA 的研发。

第二个预言,就是以 VLA 踩中后端到端时代的技术脉络。

据元戎启行 CEO 周光介绍,1.0 与 2.0 最大的不同,即将 VLM(语言模型)融入端到端,使得整个端到端系统融合为 VLA(视觉-语言-动作模型)。

VLA 是一种比端到端+VLM 更先进的架构。一个形象的比喻是,前端到端时代的 VLM+端到端就像教练在指导学员开车,但在后端到端时代,VLA 就是教练亲自开车。

VLA 对于复杂场景的解读更到位,例如潮汐车道。

并且,VLA 模型摆脱了「黑盒效应」,可解释性更强,更安全。此前 VLM+端到端架构中,由于 VLM 需要经端到端输出,因此存在「不可求导」性,如果系统出现 bug,工程师团队需要确认是 VLM 还是端到端的问题。在 VLA 中,均可向上推导,将有效提升开发效率。

周光认为,两者在时间层面的推理能力也有非常大的不同。

Rule-based 只能推理到 1 秒钟内运动,VLM+端到端可以推理到物体 7 秒后的运动,但 VLA 能达到几十秒,思考的范围更远。

就像预言家能够预测决策后的多种结果,最终选择最优解一样,系统能推演的时间越长,得到的答案会越准确,相比于 VLM+端到端,VLA 智商、情商也就更高。

VLA 似乎也正在逐渐成为一种共识。

与元戎启行的思路相似,英国自动驾驶公司 Wayve 把语言和行动结合起来,将 Lingo-1 升级为视觉-语言-行动驾驶模型组成的 Lingo-2,加速 Wayve 的 AI 大模型进化升级。

有业内人士评价,元戎一直都特别激进。事实是,在这场激烈的智驾竞争中,元戎在端到端 2.0 率先拿到了入场券,有望收获更多的高阶智驾量产项目。

03、国服预言家,必须多快好省

全球都在进入一场以自动驾驶、大语言模型为锚点的 AI 热潮中,热浪越汹涌,越需要「预言家」。

典型如欧美对包括智能驾驶在内的 AI 投资,从不手软。

英国《金融时报》梳理微软、亚马逊、Meta 和谷歌母公司 Alphabet 等美国科技巨头最新财报数据发现,今年上半年美国科技巨头大幅增加人工智能领域投资,上述企业投资总额高达 1060 亿美元。

相比之下,中国的智驾投资相对谨慎,据中商产业研究院数据,2024 年 1-6 月,中国自动驾驶行业共 29 起投资,金额达 125.66 亿元。

欧美 AI 向左,中国 AI 向右。

零一万物创始人李开复认为,创业公司想要追赶 OpenAI 只有两种方式,一种是消耗同样的资源往 AGI 去冲,不过随着模型不断升级,投入训练所耗费的资金将会是天文数字。

还有一种路径,就是找到独特的「多快好省」的打法后发制人,用最少的资源训练出力所能及的最优秀的模型。

美版预言家当属特斯拉。如果推延其自动驾驶技术栈,就会发现特斯拉至少引领了三个技术趋势:

2021 年,推出 BEV+Transformer 自动驾驶新范式;2019 年,发布自动驾驶计算芯片 FSD chip,引发新势力造芯潮;2024 年,发布 FSDV12,成为最早提出端到端自动驾驶的玩家。

中国自动驾驶行业面临的情况显然更复杂,竞争更激烈,而且相对而言投资金额不那么充裕。

这种情况下,反而更需要预言家,更早地踩准技术节奏,最大化地减少资源浪费,达到同样的模型效果。

元戎之所以能成为国服预言家,与 Tech Vision(技术嗅觉)相关。

第一个层面是技术的 Tech vision。

行业一致认为,数据、算力、算法形成了端到端智驾铁三角。不过这三者并非均衡关系,算法领先将会成为数据、算力的基础。

换个说法,多 10 倍的数据并不意味着整体效果就好 10 倍。

周光认为,在智驾早期,数据和模型都非常重要,进入中后期,VLA 效果主要取决于算法差距。

这是因为 VLA 对算力的要求远远没有大语言模型那么大。

这就变相解释了,为什么在 2023 年时,元戎用比同行少的数据就能就让端到端模型成功上车。

第二个层面是对人才的 Tech vision。

对于自动驾驶来说,AI 人才要比编程人才更重要。

端到端出现后,给自动驾驶人才及组织架构带来了巨大影响。元戎比较早地意识到了要把 AI 人才放在团队首位。

在元戎的人才思路里有个词叫「原生 AI」,就是一开始就天然地把 AI 作为技术手段和技术核心。

从学科角度出发,有物理、数学的基础才能学好 AI,这也不难理解为什么大量 AI 人才都有基础学科背景,也就不再惊讶为何诺贝尔物理学奖颁给了 AI 教父杰夫辛顿。

目前元戎技术团队占比公司总人数的 84%,其中大部分人才有数学/物理相关背景。据了解,刚刚到账的 7 亿融资也将会用于元戎投入研发及招聘 AI 人才。

第三个层面是从车出发,对于未来商业、技术趋势的把控。

与特斯拉类似,元戎同样正在入局 Robotaxi,有所区别的是,元戎做 Robotaxi 首先不会参与造车,轻资产运营,其次 L4 与 Robotaxi 的定义有本质区别,元戎不会用规则算法去跑 Robotaxi。

若以十年的维度去预言,马斯克和周光都相信,自动驾驶将最有可能诞生 AGI。

在技术世界里,变量才是常量,而技术嗅觉将会成为变量的杀手锏。

0 阅读:13