OpenAIicon首款AI智能体Operator发布,依托CUA模型取得全新的SOTA。北京时间1月24日凌晨,OpenAI首款AI智能体Operator亮相。Operator由Computer-iconUsing Agent(CUA)新模型提供支持,它能够代理用户执行基于网页的操作,直接与网页交互——像人类一样点击、滚动和输入文字,自动执行各种复杂操作,包括编写代码、预订餐厅、购物等。期间,用户可以添加其他指令和随时接管控制,Operator还可以同时运行多项任务,并在关键操作中会要求用户确认。目前,Operator已面向美国iconPro套餐用户开放,下一步将扩展至Plus、Team以及Enterprise用户,并在未来将相关功能集成至ChatGPT当中。OpenAI表示,CUA仍处于早期阶段且存在局限性,但仍取得了最新的SOTA。在OSWorld上实现38.1%的完整计算机使用任务成功率,在WebArena上实现了58.1%的成功率,在WebVoyager上实现87%的Web端任务。
Operator融合视觉识别与高级推理,跨越API实现复杂步骤规划。早在2024年10月,Anthropic推出革命性功能——Computericon use,可通过API即可实现AI与PC交互。此次CUA 将GPT-4o的视觉功能与通过强化学习获得的高级推理相结合,经过训练可以与图形用户界面(GUI,即人们在屏幕上看到的按钮、菜单和文本字段)进行交互。也就是,Operator可以对浏览器进行“查看”(通过屏幕截图icon)、和“交互”(使用鼠标和键盘支持所有操作),因此能够在Web之上执行操作且无需自定义API集成。一旦遭遇难题或者错误,Operator还可利用其推理能力实现自我纠正。具体地,Operator通过以下三步循环迭代完成操作。1)感知:计算机的屏幕截图被添加到模型的上下文中,提供计算机当前状态的视觉快照;2)推理:使用思路链推理后续步骤,同时考虑当前和过去的屏幕截图和操作;3)行动:执行操作(单击、滚动或键入),直到它决定任务已完成或需要用户输入。
AI Agent将是生成式AI的下一个前沿,2024年市场规模达50亿美元。据《科创板日报》不完全梳理,国内外科技大厂转向AI Agent。微软icon在其Dynamicsicon365平台一口气推出10个自主AI智能体,称相当于187名全职员工的产出;谷歌icon发布号称“智能体时代”最强大模型Gemini 2,提供多模态开发接口,让智能体能“看懂”物理世界;华为icon公布了一项可让AI像人类一样操作手机的新研究成果。而在Operator发布当日,智谱将GLM-PC 1.0升级至GLM-PC 1.1,深度融合多模态模型CogAgent与代码模型CodeGeex,以代码形式指挥工作流程和工具调用,并强化了深度思考模式下的规划、推理、反思能力。我们认为,随着龙头厂商接连入局,AI Agent将加快技术迭代,充分挖掘下游应用场景,具备广阔的发展空间。根据Markets & Markets的预测,到2030年,AI代理的市场规模将从2024年的50亿美元激增至470亿美元,年均复合增长率为44.8%。
▶ 投资建议:建议关注:博睿数据icon、泛微网络icon、金蝶国际、鼎捷icon数智、汉得信息icon、彩讯股份icon、梦网科技icon、致远互联icon、普联软件icon、金证股份icon、中科创达icon、普元icon信息等。