商汤绝影：多模态大模型如何改变智能汽车交互

2024世界人工智能大会，商汤绝影亮相多款智驾和智舱产品，这些产品都是基于商汤原生多模态大模型，包括自动驾驶大模型DriveAGI、车载生成式交互界面 “随心界面”（FlexInterface）、以及“随意操控”（AgentFlow）等车载AI Agent应用。

汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚

在智舱层面，多模态大模型将是必然趋势，它能将语音、文字、图像、手势、视频等各种模态进行高效且深度地融合，提供更加丰富且自然的人机交互体验。

过去许多模型处理不同模态信息，是先把语音等输入转化为文字，文字和图像结合进行分析，输出反馈也是先生成文字，根据文字再生成语音输出，会有大量信息丢失和很高的延迟。

商汤的全新多模态大模型，是一种端到端模型，也就是文字、语音、视频等模态一同输入，模型统一处理后输出相应模态的信息，相较于过去的方案，多模态融合的技术难度是几何倍数的提升。

其底座是由商汤“日日新5.5”体系支持。商汤在今年4月发布“日日新5.0”，是国内首个对标GPT-4 Turbo的国产大模型；而“日日新5.5”更是全面升级，数学推理、英文能力和指令跟随等能力明显增强，交互效果和多项核心指标实现对标GPT-4o。

在商业落地层面，智能汽车相较手机是更适合承载多模态大模型的场景。通过车内外各种摄像头，用户可以实时跟汽车通过多模态方式进行交互。随着智能汽车保有量不断增加，能够产生丰富的终端用户反馈和数据信息，让模型不断迭代成长。

现阶段，智能汽车的人机交互还远没有达到“以人为中心”。用户仍需用文本或语音给智能汽车提供信息和数据以获取被动式的服务，其他的信息都丢失了，尚未真正做到主动服务用户。

而通过多模态大模型打造的交互，覆盖座舱和汽车周边环境，突破空间限制，实现舱内与外界物理和数字世界的联接。

车端模型部署能力，将是智能汽车交互革新不可或缺的技术保障。商汤绝影能够以云侧、端云结合、端侧等全栈方式灵活部署，让商汤原生多模态能力能够快速落地智能汽车。

在本届WAIC上，商汤绝影宣布在行业率先实现原生多模态大模型的车端部署，并对外展示了在3个不同算力平台上运行2.1B或8B端侧多模态大模型的适配能力。相较于动辄就有几秒钟延迟的云上部署方案，商汤绝影车载端侧8B多模态模型可以实现首包延迟低至300毫秒以内，推理速度40Tokens/秒，为「以人为本」的智能汽车交互革新保驾护航。

这也是和OpenAI等公司相比的优势，商汤绝影是智能汽车的核心供应商，在智驾和智舱领域具备丰富的量产经验。

而在智驾方面，商汤也有很深的积累。2022年底，商汤及其联合实验室提出了行业首个感知决策一体化自动驾驶通用模型UniAD，并在次年荣获2023年国际计算机视觉与模式识别会议(CVPR)最佳论文，到今年北京车展，商汤绝影展示了UniAD实车上路。

通过持续数据采集、真值生产、模型训练、实车测试，UniAD系统稳定性大幅增强，体验连续性和舒适性不断提升。到本届WAIC上，只搭载7个摄像头，在无图情况下实现城区复杂道路、乡村小路等场景一镜到底的实车演示。

UniAD显著提升了智驾系统的驾驶能力，但纯粹的端到端自动驾驶模型不是自动驾驶的最终答案，智能汽车需要进一步具备对开放世界的感知、推理、决策及交互能力。因此，商汤绝影研发了首个应用于驾驶决策规划的智驾大模型，基于多模态大模型打造的DriveAGI，让端到端智驾可解释、可交互。

DriveAGI增强了端到端系统的可解释性，不仅让车辆能够更像人一样理解复杂的现实世界，洞察各类交通参与者的行为动机，快速学习各种交通规则，掌握瞬息万变的道路信息，还能向用户解释驾驶决策的推理过程。

目前，商汤绝影DriveAGI智驾大模型能在无限宽标识的道路上，安全顺利穿过两个石墩形成的狭窄通道；它还能准确辨识并理解包括公交车道、潮汐车道及施工车道等各类交通标识，并自主进行变道或规避，甚至当后方有救护车接近时，DriveAGI会进行思考推理，最终进行及时变道避让。

DriveAGI不仅能识别救护车，还能做到主动让行执勤救护车

多模态大模型还赋予了DriveAGI强大的可交互性，用户不仅可以通过问询让DriveAGI解释自己的决策过程，还能通过语音或手势指令来控制自动驾驶行为。未来在自动驾驶状态下，导航指示车辆需在下个路口调头以抵达目的地，但驾驶员知晓可在前方有近路可以直接转弯，那么他只需对系统说出“直接左拐”，系统便会根据当前路况来执行这一指令。

UniAD和DriveAGI智驾大模型，都是依赖商汤绝影的模型能力，再进行大量的高质量数据学习和训练。大模型极大提高了端到端智驾训练、迭代的生产效率。

以真实的多模态数据为基础，商汤绝影的世界模型、交通流仿真大模型等一系列云端大模型不断生产出高质量数据，同时通过各个大模型之间相互协同，实现场景生产、交通流仿真、真值生产、系统诊断等能力，打造出智驾大模型时代的端到端数据闭环，为端到端自动驾驶方案的落地与进化提供有力的保障。

此外，商汤绝影还正式发布了行业首个生成式交互界面产品“随心界”（FlexInterface）以及“随意操控”（AgentFlow）等多个车载 AI Agent。

依托AI大模型的即时生成和修改交互界面的能力，“随心界”在大模型解析用户需求的基础上，结合设计系统的框架和范式，实现高度动态和个性化的界面生成。无论是天气、时间、节日、纪念日，还是周围环境变化，都能自动变换界面风格，提供最佳用户体验。

“随意操控”则能通过大模型的推理能力，模拟人类点击操作，实现对APP和网站的直接操作。用户只需使用自然语言，就能让AI自主选择多个工具完成复杂任务，无需主机厂进行额外的研发适配。这不仅提升了操作的便捷性，还极大地扩展了车载系统的功能范围。例如，用户能让“随意操控”自动搜索并预约适合看球的酒吧，提供从搜索到预订的一站式服务。

在现场演示中，用户通过“随心界”生成了一个欧洲杯风格的主题，大模型自动生成具备欧洲杯元素的中控屏幕桌面和图标；同时，用户还能通过“随意操控”随时播放欧洲杯或足球相关的音乐，展示其在实际应用中的强大能力和灵活性。

目前，商汤绝影在产品化量产落地方面全面开花。在智舱领域，商汤大模型产品已经在多家主流车企的量产车型中得到广泛应用，比如助力小米SU7的小爱语音助手。

翼真L380上搭载最新版本商汤“日日新”大模型，基于“商量”大语言模型和“秒画”文生图模型，商汤绝影为翼真定制化打造了“AI闲聊”、“美图壁纸”、“童话绘本”、“AI问诊”等AI大模型座舱产品和功能。

在智驾领域，它的量产智驾产品已落地包括广汽埃安LX Plus、合众哪吒S、广汽昊铂GT、红旗等品牌及车型，高速NOA等功能也开始落地，同时绝影还在推进更多车型交付，已具备了从感知到规控的全栈智驾技术量产交付能力。6月初，广汽和一汽入选国内首批L3试点项目，商汤绝影为他们提供面向L3的感知算法。不止如此，商汤绝影目前的多个量产智驾方案在未来均可升级为端到端架构。

更高阶的L4，商汤绝影在WAIC 2024亮相自动驾驶小巴，后者是大会唯一承担接驳任务的L4级小巴，提供多个地点之间的需求响应式出行体验。

这背后是商汤绝影硬核的技术实力和强大的落地运营能力。目前，绝影L4级别的自动驾驶小巴的测试与运营总里程累计已超3,000,000公里，并在江苏无锡、陕西西咸新区等多地开展自动驾驶接驳服务。

在上海临港，绝影L4级自动驾驶小巴已经面向公众进行日常运营。商汤绝影与上海临港新片区公共交通有限公司共同打造的智能网联公交场景，采用“响应式公交”模式按需响应，已实际投入的医疗专线和上海海洋大学专线，预约乘坐人数累计已超过16,000人次。

商汤绝影的大模型产品正在融入智能汽车和智慧出行的方方面面，开辟全新的出行范式，加速智能汽车驶入AGI时代。

魔女团新闻

商汤绝影：多模态大模型如何改变智能汽车交互

如梦初醒说车