昨天 OpenAI 发布了 Operator 智能体,在 OpenAI 官方的定义里,这符合 AGI 分级中的第三级 Agents,可以采取行动的代理,是一个根本的突破。但这到底是什么意思?
刚看了 Andrej Karpathy 的一个评论,我觉得他真的很厉害。在深入浅出这一块,由衷佩服:
像 OpenAI 的 Operator 这样的项目之于数字世界,就如同人形机器人之于物理世界。一种通用的设置(显示器、键盘和鼠标,后者是人体设计)原则上可以通过最初为人类设计的 I/O 接口,逐渐执行任意通用任务。在这两种情况下,它都将引领我们进入一个逐渐混合的自动化世界,在这个世界里,人类成为低级自动化的高级监督者。有点像驾驶员监督辅助驾驶系统。
这种变化在数字世界中发生的速度会比在物理世界中更快,因为移动比特的成本大约是移动原子的 1/1000。尽管在物理世界中,市场规模和机会感觉要大得多。
实际上,我们在 OpenAI 的早期就研究过这个想法(参见 Universe 和 World of Bits 项目),但顺序错了——大语言模型必须先出现。即使到了现在,我也不能 100% 确定它是否准备好了。
因为多模态(图像、视频、音频)在过去 1-2 年才刚刚与 LLM 集成,通常作为适配器的方式接入的。更糟糕的是,我们还没有真正探索超长任务的时间跨度。例如,视频包含了海量信息,我不确定我们是否可以期望将其全部塞入现有的上下文窗口(当前的范式),然后期望它也能正常工作。我觉得这里还需要一两个技术突破。
我的时间线上的人说 2025 年是代理之年。我个人认为 2025-2035 年是代理的十年。我觉得要真正发挥作用,需要在各个领域做大量的工作。但它应该会起作用。
今天,Operator 可以在 DoorDash 上为你找午餐或查看酒店等,有时候可以,有时候会出错。未来,你将可以启动 Operator 组织来完成你选择的长期任务(例如运营一个完整的公司)。你可以成为同时管理 10 个 Operator 的 CEO,也许有时会亲自参与解决一些问题。事情会变得非常有趣。