OpenAI与全世界最新锐的团队,想要用AI完成对浏览器的「复兴」

极客公园 2024-11-23 09:25:54

网景公司创始人 Marc Andreessen 曾过说:浏览器可以说是有史以来对人们生活影响最大的一个软件。

无论桌面 PC 世代还是智能手机世代的用户,都离不开浏览器这个工具——它太过重要,甚至可以说是互联网迄今为止最重要的发明。在互联网过去三十年的数次时代变迁中屹立不倒。

但这不意味着浏览器在 AI 时代中不会发生改变:据 The Information 报道,OpenAI 正在打造一款与 ChatGPT 深度整合的网络浏览器工具,并且已经就 ChatGPT 在网页交互上的功能整合,与旅游、食品、房地产以及零售等主要网站服务商进行了沟通。

OpenAI 已经组建相关团队计划开发「AI 浏览器」|图片来源:The Information

除此之外,OpenAI 在近几个月已经挖来了 Google Chrome 创始团队成员 Ben Goodger:他同时也是 Firefox 的首席工程师,这意味着 OpenAI 可能已经为 AI 浏览器项目可组建了相关的团队。

关于 AI 浏览器这个概念,其实我们已经不陌生:如果你是一个 Mac 用户,又恰好是一个效率工具爱好者,那你肯定听说过 Arc 浏览器这款产品:这是一款基于 chromium 内核打造的第三方浏览器。它将浏览器的平台化应用做到了极致,旨在帮助用户「灵活调度所有网页内容」,并由此衍生出了自己独特的标签页管理与交互逻辑。

这套如同效率工具一般的逻辑经过浏览器的功能整合,迅速收获众多拥趸,开发团队 The Browser Company 也在 2024 年以 5.5 亿美元的估值,融资 5000 万美元。

但在似乎一切都在向好的方向前进时,开发团队却自己选择按下了终止键,选择另起炉灶,原因无他,只是开发团队认为「能在 AI 被 时代用户喜爱的浏览器应该是别的样子」。

无独有偶,从 2024 年秋开始,诸如 Claude 3.5 发布的 computer use、Google 泄露了下一代浏览器工具 Project Jarvis 这样基于浏览器人机交互流程优化的产品相继诞生。

似乎在近两年的生成式 AI 浪潮后,终于轮到我们最熟悉的浏览器被 AI 来「升级」了。但 AI 浏览器,究竟会以一种怎样的面貌出现在我们的设备中?

01

Arc 走过的弯路

2024 年 10 月底,按照 The Browser Company 联合创始人的 Josh Miller 在公告视频中公布的信息,尽管 Arc 在过去一年中用户数量增长了四倍,但其复杂性和独特性使其难以成为主流产品。

因此,团队决定不再在现有产品上进行改进,而是着手开发一款全新的浏览器,旨在从根本上改变用户与网络的互动方式,成为一个更具主动性和智能化的平台。

我用 ChatGPT 翻译了一下,Josh Miller 说的话意思大概就是「Arc 浏览器现在挺好的,但我们觉得这不是我们想要的未来,因此我们不会继续更新它了」。

这种「弃坑声明」一般的内容即使被包装的像是「新产品发布预告」,不出意外还是被网友普遍理解成了:

「给 Arc 浏览器出殡」。

即使创始人将这个「下一步」吹的天花乱坠,但不难想象这样一通骚操作肯定犯了众怒——尤其是那些伴随着 Arc 浏览器一路走来的老用户们。

在 Josh Miller 发布的视频评论区,高赞评论几乎全是关于吐槽这份宣言,因为它等同于将 Arc 浏览器宣判死刑:即使是当下,Arc 也并没有做到真正意义上的完美,它还有着众多的问题需要修补。

视频下评论区用户对于「弃坑声明」的吐槽 | 图片来源:YouTube 评论区

能让开发团队冒着如此风险去开发的新产品,足见这次「转向」在 The Browser Company 眼中的重要性:按照 Josh 在视频中的说法:他们认为 AI 能力「即将彻底改变浏览器」,因此他们要做的新产品也将会是再一次颠覆浏览器使用体验的一款产品。

虽然骂声一片,但对于打造了 Arc 浏览器这样明星产品的团队来讲,在光环围绕的情况下保持清醒激流勇退,尤其是从创业公司的角度,确实称得上是做「难但正确的事」。

站在此时反思,其实 Arc 浏览器虽然一开始标榜「让每一个用户都能高效使用浏览器」,但实际上在诞生后两年多的迭代中,Arc 浏览器逐渐偏离了这个目标:过多的新元素同时也意味着高昂的工具学习成本,Arc 被很多用户诟病的「上手困难」,很多习惯了 Chrome 的用户对于切换到这样一款新产品的兴趣并不强。

或许也是因为看到了 Arc 浏览器现在存在的这种问题,开发团队在预告他们的下一款浏览器产品时,表示「让(上手的)前 90 秒变得毫不费力」将会是全新浏览器的重要特征。

这几乎已经是在明示在这款全新的浏览器中「用 AI 能力帮你快速上手」将会是主要卖点:Arc 浏览器至今存在的「评价两极分化」,也是在一定程度上解释了用户并非不需要效率工具,而是在不希望在这个过程中本末倒置,为了学习使用效率工具花费更多的成本。

不只是 Arc 浏览器,实际上在 2024 年,包括 Google Apple 这样的系统大厂都在做相应的功能跟进,「用 AI 帮你接管繁琐的初步设置」这个概念已经初具规模:这些功能如同一个带你参观房子的向导,不仅能替你解答其中的具体问题,更能在背景中,自动根据用户的个人喜好,将众多设置选项调整至完美的状态。

iOS18.1 中,Apple intelligence 能力可以自动帮助用户完成部分手机设置 | 图源:Apple 官网

02

「在信息的海洋中滑行」

回顾互联网历史,几乎每一个十年的互联网操作体验变革,背后都有浏览器产品之王易主的影子。

浏览器在很多时候是构成互联网体验的重要窗口,因此浏览器的操作变革一直走在互联网工具更新的最前沿:从 1994 年网景打造的 Mosaic 浏览器占据当时 80% 的市场份额,到微软通过 Windows 预装 IE 浏览器迅速成为新时代的霸主,再到新世纪初 Firefox、Chrome 为代表的操作效率与移动端革命,浏览器的一次次革命,都如同预言般奠定了未来数年的互联网技术发展趋势。

虽然大模型能力已经成为所有人公认、即将改变互联网面貌的重要技术革命,但作为工具的浏览器似乎在这一轮演变中慢了一拍:以 OpenAI 为代表的第三方大模型厂商通过直接抓取网页信息,给出用户反馈的方式,大有取浏览器而代之,成为新世代互联网最主要交互工具的趋势。

目前的 Arc 浏览器中,其实已经能看到不少 AI 功能的身影:比如直接在网页中提问问题,Arc 浏览器就能根据网页中显示的内容给出最相关的信息整合反馈,以及浏览器中对于 ChatGPT 的整合,网页/下载文件自动重命名等功能。

Arc 浏览器中现有的网页内容问答功能 | 图片来源:Arc Search

尤其是在诞生时间更短的手机版 Arc Search 上,开发团队还设计了「捏合总结网页信息」的功能:只需要在手机屏幕上捏合网页,Arc Search 就能自动调用语言模型能力,帮你汇总网页中的内容并整理一份摘要。以及 AI 搜索功能:搜索后不会返回传统搜索引擎的词条,而是参考至少六个相关网页内容,然后以总结的形式精准给你一个关于你的问题的答案。

移动端 Arc Search App 的 AI 搜索功能 | 图片来源:The Brower company

如果这些都不算开发团队眼中的「AI 浏览器」,那真正的 AI 浏览器应该是什么样,就成了新的问题:按照 The Brower company 的介绍,他们已经花了五年的时间在这款产品的开发上,当下 Arc 的平台化能力将会继续成为全新浏览器产品的特征之一。

虽然 LLM 如今明显有「取代搜索引擎」的趋势,但这并不代表浏览器将会在下一个时代中被淘汰。相反浏览器作为 AI 能力平台的属性将会进一步得到强化:当前 Chrome 浏览器的第三方插件应用商店中,就已经能看到不少调用第三方语言模型能力的插件。

目前已经能在 Chrome 浏览器中调用 Claude 的插件|图片来源:Chrome 应用商店

Google 目前尚未发布的 Project Jarvis,据称也是一款利用 Gemini 2.0 能力,改变用户与网页内容的交互的一款插件工具。

Josh 在视频中提到,他设想中的、属于 AI 时代的浏览器应该有的体验,应该是他在旧金山乘坐 Waymo 自动驾驶出租车服务时,有过的那种「在物理世界中轻盈滑过」的感觉。

具体到互联网世界,这显然就是「浏览器应该帮助用户从网页中高效提取有用的信息」,甚至帮助用户完成一些必要的交互:例如填写相关的账号、地址等信息。

类似的概念其实不只局限于浏览器:Claude 3.5 发布的 Computer Use 功能,其实已经能实现初步的「电脑接管」,例如你提问「帮我总汇总最近的数码新闻」,它可以自动完成「打开浏览器 - 输入关键字 - 总结反馈内容 - 生成一份日历视图的表格」这样的流程。

但 Computer Use 目前暴露出的问题,其实也与浏览器有关:例如当你想要执行一个「帮我查询机票最低价格并预定一个旅游套餐」时,不仅涉及到「搜索 - 反馈」的动作,其中还涉及到大量「输入个人信息/银行账号」这样的验证信息,类似 Claude 这样的自然语言机器人,难以顺畅地完成其中所有关键操作。

Conputer Use 自动帮你订票时,涉及到用户信息填充的部分仍然比较繁琐|图片来源:Anthropic

从这一步其实已经能看出,如果类似的功能是浏览器本身自带,这样的问题就都能迎刃而解——实际上,Google Project Jarvis 目前已经泄露的消息中,就已经出现了类似的功能:作为 Google 官方发布的产品,Project Jarvis 的官方介绍是「您上网冲浪时的有用伴侣」。不仅有可能完全基于端侧运行,而且能在确保用户数据安全的情况下,帮助用户处理更多涉及到诸如账号密码、相册分类,内容查找等基于浏览器实现、包含大量用户隐私数据的操作。

在掌握了足够的事实信息以及用户数据后,如今还不具备多少可行性的「直接帮我买某某产品」,实现的可能性就急剧提升:由于不少人依赖浏览器订阅服务以及订购各种数字产品,浏览器已经事实上成为很多人的信用卡与密码管理工具。

此外,由于有了浏览器本身的支持,读取各种网页内容,就再也不用像 Claude 3.5 那样,需要依赖多模态识别屏幕截图,效率极低地完成各种操作:这个难题,包括 Apple 与微软这样的操作系统级厂商都难以解决,而浏览器作为访问网页内容的「窗口」,本身就掌握着网页最为丰富的原始信息,不仅能够提升操作效率,也能大大提升操作准确率。

这些操作,在开发术语中需要借助大量的浏览器 API 接口,才有可能获得,而 Arc 浏览器此前作为遵循平台化思想开发的一款浏览器产品,实际上就已经初步具备了这样「接管用户数据」的能力,接下来能做的,显然是让浏览器「想用户所想」,并最终进化成为一款「替做用户尽可能做更多想做的事」的这样一款工具。

听起来很美好,但实际上关于「浏览器在 AI 工具的浪潮中何去何从」的讨论,如今才刚刚燃起星星之火:不仅有 Chrome 这样浏览器巨头的早期探索,也有类似 OpenAI、Anthropic 这样试图完全颠覆浏览器操作体验的厂商,Arc 浏览器团队的「急转向」,也恰恰表明了他们要第一批加入这场竞争的信心。

在 AI 能力的支持下,浏览器能做的,显然不只是如同 ChatGPT 一样,总结并返回搜索结果这样简单。

但目前,随着 Arc 浏览器的停止更新,有一件事已经尘埃落定:至少在今天,我们需要最新锐的团队,投入到对下一代浏览器的探索,而不是再来一场「浏览器的文艺复兴」。

但目前,随着 Arc 浏览器的停止更新,以及 OpenAI、The Browser Company 这样的团队全力投入「AI 浏览器」的开发之中,关于这个话题的结论已经尘埃落定:

无论巨头还是创业公司,其浏览器产品想要在 AI 时代中继续生存下去,对 AI 浏览器的探索必不可少。

0 阅读:1