机器之心原创
作者:吴昕
只是装了一个 App,整个生活就 AI 了 。
家人们,支付宝已经这么「炸场」了吗?
输入「买一张周日的高铁票,从北京到武汉, 下午出发,行程时间最短的一趟」, 点击三次,等待数秒,购票成功!以前跳转几个页面、点击十几下才能搞定,感觉像是一个段子。
随着国内各大互联网平台纷纷推出专门的 AI 原生应用,国民级应用支付宝也向等待已久的市场交出答卷——一个全新的 AI 原生应用「支小宝」。
不少 AI 原生应用像一个全能助手,你可以问任何开放性问题,TA 都能回答,尽管也不那么笃定。
但「支小宝」不同,作内首款办事型 AI 生活管家,TA 生动展示了大语言模型的应用如何从理解( Chat )转向采取实际行动( Act )。
支付宝已经诞生 20 年,每天都有数亿人用它支付、出行、理财、就医、办事。做普通人的「生活百宝箱」,也一直是它的底色。而今,进入 AI 时代,「支小宝」正接力支付宝,希望人工智能也能像二维码服务一样,未来惠及每一个普通人。
一、只要一句话,生活就 AI
乍一看, AI 原生应用就和移动互联网原生应用(支付宝)很不同。
单一蓝色的配色方案,配以极简的界面设计,让人倍儿感清爽。「此刻」、「对话」 分别对应「支小宝」两个核心能力,主动陪伴和跑腿办事。「智能体」示意「支小宝」未来要交很多朋友。
一个对话框「包打天下」:只要你一句话,叫车、订票、充话费服务立刻直达。
体验一番后发现,日常就这样被大模型给摆平了。
早上叫醒打工人的不是梦想,而是咖啡,只用说句「点杯瑞幸咖啡的生耶拿铁,到店取」,搞掂!
视频链接:https://mp.weixin.qq.com/s/zzHiSKjC6-1V2xLwFyVAMA
「支小宝」会将取餐码,连同天气和要闻「写到」便利贴上,贴到「此刻」公告栏。
车站附近扫码取咖啡。发现车快来了,点开「随身口令」,「我要坐公交」,乘车码立刻弹出来。
本着「能动手就不要动口」的精神,召唤刚需服务的「口令」已经进化成模版。
视频链接:https://mp.weixin.qq.com/s/zzHiSKjC6-1V2xLwFyVAMA
早会完毕,接到下周出差的任务,只需在对话框说清要求,如出发地、目的地、时间、甚至票价高低,就能一键搞定,身份证号都能帮你填好。
午饭时间,「此刻」自动更新到中午状态,前几天网购的包裹已经到了。
天气太热,上个月电费花了多少?打开一看,不出所料,充值缴费多半都是电费支出。
充话费、给闺蜜转账,啥都不用自己填, 「支小宝」直接搞定。
晚上,依旧咳嗽不止,白天还发烧,该挂什么科?「支小宝」请来健康医生作答,确认科室后,直接将医院挂号入口找了出来。
视频链接:https://mp.weixin.qq.com/s/zzHiSKjC6-1V2xLwFyVAMA
过去多次点击才能完成的事儿,现在只需一句话,AI 就能帮你办好。很多生活百科问题,「支小宝」也能整合网络内容回答你。
通过「对话」,你可以享受一句调动日常服务的快感。进入「此刻」,因为拥有场景感知系统,「支小宝」会基于你的日常习惯、空间位置主动给到陪伴。
TA 就像一个聪明的公告栏,实时将 To-do list 事项更新至此。除了实时更新的天气和新闻,快到地铁站了,乘车码会自动冒出来;快递到了,取件码会被贴在首页。如果你在黄山,请出「智能体」里的「黄小松」就能获得更地道的本地服务。
,时长
00:14
用得越多,TA 越懂你。经常打车去某个地方,「打车去XX」就会出现在「随身口令」中。
二、 用硬科技狠活儿满足最接地气的需求
「支小宝」有点迷惑性。
当产品体验丝滑到「无感」后,人们反而容易忽视沉淀在下面的深刻技术,甚至会有「这也不难做到」的错觉。
没有底层的模型和算法能力创新,就不可能有产品上的「一键上翻支付宝百万级小程序」、「让 8000 万数字生活服务『触手可得』」。
和大模型理解用户意图后直接调用商家接口的做法不同,「支小宝」使用了一个名为 ACT(Transformer for actions )的智能服务技术,让智能助理具备屏幕感知与仿真执行能力,就像让 AI 有了「眼睛」和「手脚」,模拟人类交互(如点击、滚动和输入)下单、订票。
ACT 会先利用大语言模型来理解用户的自然语言需求,然后将其转化为一系列具体的操作指令。这使得用户无需手动操作多个界面,只需用语言表达他们想要的东西即可。为了实现这一目标,支付宝在多个方面进行了探索和创新。
首先,支付宝实现了多模态数据采集,除了行为数据,还有页面的图片、数字、按钮、输入框等各种元素,使系统能够「看到」并理解当前的用户界面。这就像给机器人装上了眼睛,让它能够准确地在界面上操作。
有了「眼睛」还不够,跑腿办事还得有「四肢」,围绕支付宝框架和容器能力,他们自建了一套仿真执行能力,针对性地解决了在支付宝 App 上做仿真执行的问题。
为了提供更好的用户体验,ACT 采用了「离屏」方案,将整个操作过程隐藏在用户视线之外。这样,用户就不会看到中间的操作过程,体验更加流畅。
除了这些会见诸媒体报道的底层创新,更多技术和能力沉淀在了超级应用里。
为了提升大模型的行动力,支付宝还优化了 Function Call(函数调用)。通过采用函数表达和显式推理等高级 Prompt 技术,显著提升了大模型理解和调用合适工具的能力。更值得一提的是,他们还利用实际业务场景的复杂数据来训练模型,这大大增强了模型的「实操」能力。
作为一个泛生活服务数字平台,支付宝的服务生态非常丰富。现在,借由 AI 将平台 8000+ 数字生活服务、400万+ 小程序重新连接起来,这一举措堪比支付宝当初通过一张张二维码构建起移动支付网络,对工程化落地能力提出了极高要求。
而系统工程能力正是中国这些日活过亿超级应用的强项。「亚运数字火炬手」活动吸引了超过 1 亿人参与,「五福节」活动更是支持了 6 亿人次的 AI 互动,这些成功案例不仅证明了支付宝在处理海量用户请求方面的卓越能力,更展示了其在解决大模型应用规模化落地中的关键问题,如算力支撑和成本控制等方面的领先实力。
ACT 正在从端侧渲染向端云协同渲染过渡。这种转变虽然工程复杂度很高,但对于「支小宝」这类对响应速度要求极高的产品来说至关重要。特别是 ACT 技术所需的容器级别云渲染,比起「五福节」中使用的单纯界面渲染要复杂得多,对工程能力的要求也更高。
三、支付宝的「内生」:
不止于 All in AI,而是 AI in All
二十年来,中国人的购物方式和日常生活发生了翻天覆地的变化。人们可以使用二维码移动支付,而不必再使用信用卡。手机上不仅能买机票、电影票,还能打车、缴费、挂号甚至领结婚证。支付宝成了「生活百宝箱」,但从「百宝箱」立刻翻出你要的东西,也是不易。
今年4月,支付宝将 AI 引入整个平台。在首页开启测试全新 AI 产品支付宝智能助理(「支小宝」前身),同时在多个场景接入了智能助理:搜索、出行频道、市民中心。
拉下支付宝 App 首页,就能唤起,起到「App 智能导航」的作用。后因探索 AI 原生应用,为用户提供更极致的体验,又有了独立 App「支小宝」。
由此可见,ChatGPT 和 LLMs 大热 ,每个公司都会选择最合适自己的方式跟进。
OpenAI、Anthropic、Mistral 等将聊天机器人作为一个神奇的通用界面,追逐一个可以提问任何开放性问题的全能助手。而支付宝给出了另一种选择,转向更加务实的应用层,看看能帮助用户解决什么问题。
选择利用其现有的产品生态和经过市场验证的刚需(衣食住行)落地新技术,支付宝降低了试错成本,还能更快地获得市场反馈。即便某些产品可能失败,也能获得宝贵经验,尝试越多越有利。
因此,支付宝选择的第一个方向是「内生」,用 AI 焕新整个平台,不止于All in AI,而是 AI in All。他们并不声称,新的基础模型在所有方面都是最好的,但对于他们想要焕新的功能来说,一定要足够好。
其实,找到一个合适场景,把先进技术变成一个普惠服务,一直是支付宝最擅长的。蚂蚁集团 CTO 何征宇说过,「支付宝过去和今天的技术发展思路是一样的。」
这款国民应用今日之大成,不是基于「上帝视角」的预先设计,无非是见山修路,见河搭桥,虽然也在激烈的竞争中走过弯路,但有一点始终没变:我能为用户解决什么问题?如何让服务更简单、更敏捷?围绕核心业务体验,把硬核技术吃透。
当然,因为内核是智能体(AI Agent),「支小宝」的未来并不像它带来的体验那么「简单」。
「支小宝」能以多种形式承载并服务用户,透过专业智能体的深度连接,用户会感受到服务体验的代际升级。但,这也需要千行百业和无数 ISV 一起来「种草」。
今天的外滩大会上,支付宝面向行业正式启动智能体生态开放计划,并推出了一站式智能体开发平台「百宝箱」,依托智能体构建能力,商家机构可 0 代码、最快 1 分钟创建专属服务智能体,并一键发布到支付宝生态圈。
今天的外滩大会上,支付宝面向行业正式启动智能体生态开放计划。
此前,支付宝已经开始打样。
他们携手安徽黄山风景区,打造了国内首个「全程 AI 伴游」景区。外地游客抵达黄山后,打开「支小宝」就能快速进入黄山智能体,开启 AI 伴游。
支付宝和浙江卫健委联合推出的数字健康管家「安诊儿」,背后也是一个连接多个医院与机构的智能体生态。
二十年前,支付宝发明了快捷支付,它对整个中国移动支付发展的贡献要在很多年后才会显现出来。二十年后,支付宝设想了一种新生活,演化的进度条开始读取中。
这很正常啊,早知道了