花朵财经观察出品
编辑丨铎子
AI行业性“春晚”,再次轮番上演。
5月14日凌晨,OpenAI用一场春季发布会,再次搅动整个AI行业。这场发布会,表面上看有点简陋,全程只有26分钟,现场只有几十名观众,却备受瞩目。
最重磅的无异于,新的ChatGPT产品GPT-4o新模型的发布,与现有大模型相比,GPT-4o长出了灵活的“耳朵”、“眼睛”,甚至有了人类“情感”。
换句话说,跟GPT-4o对话就跟真人似的。
有别于此前的付费制,此次GPT-4o还将免费提供给所有用户使用。明眼人都能看出,OpenAI此次诚意满满。
但过后一看,谷歌、字节跳动等紧随其后进入AI“春晚”,相继发布大模型产品,继续加大行业竞争,为抢占市场,GPT-4o走向免费,似乎又并不意外。
AI有了“情感”“像真人一样与人交流。”
本次GPT-4o新模型,能实时按要求变换语音语调,甚至能跟测试者开玩笑,自然连贯得就像坐在身边的老朋友,完全没有机器人的僵硬感。
当测试者向它发问:“我正在台上,给大家做现场演示呢,我有点紧张,该怎么办呀?”
GPT-4o非常体贴地回答:“你在台上做演示吗,那你真的太棒了!深呼吸一下吧,记得你是个专家!”
而后,测试者疯狂地大喘气几次,问能给自己什么建议没?
GPT-4o还长出了灵活的“耳朵”,能听懂的不仅有语言,还能听懂过于急促的呼吸声。它惊讶地回复:“放松啊Mark,慢点呼吸,你可不是个吸尘器!”
它的幽默感,引起全场哄笑。
在被要求给大家讲个睡前故事,没讲几秒,就被打断,要求能不能多点情绪和戏剧性?
GPT-4o又有了人类的情感表现,说话语调开始变的有起伏、有情绪。
当再次被打断,要求能不能再来点情感,最戏剧化的表达?我们又听到了一个仿佛在舞台上表演莎剧的人,语气就像个戏剧演员。
多次被打断后,还被要求唱歌时,GPT-4o甚至叹了口气,无奈叹气的瞬间,让人十分真实的感受到了它的“情绪”。
但它还是很有耐心地按照测试者的要求,依次变成了唱歌模式。
不仅如此,它还长出了“眼睛”,可以通过摄像头,做出判断。
把摄像头权限开放给它,它能给盲人提供环境观察,给盲人讲述看到的景色,并提醒盲人过马路的路况。
GPT-4o还能化身在线导师,在线帮助解题,可以要求它只给提示,不能直接说出答案,引导用户一步一步解题。
演示完震惊全场的场景后,GPT-4o还有彩蛋。
不仅将免费提供给所有用户使用,OpenAI还发布了ChatGPT桌面版本,让其可以更轻易地和我们的工作融为一体。
正如OpenAI CTO Mira Murati一出场时所说:“对OpenAI来说,打造一款真正让所有人可用的产品,非常重要。”
谷歌硬刚OpenAIGPT-4o收获了雷鸣的掌声,然而OpenAI风光背后,竞争也在增加。
就在OpenAI发布GPT-4o的24个小时后,谷歌召开了一场两小时的I/O大会,会上共提及“AI”121次,并发布了多项产品。
其中,一款名为Project Astra的AI智能体产品,具备多模态实时推理能力,能够跨越文本、音频和视频等多种模态进行信息处理,也可通过摄像头捕捉并处理视觉信息,是GPT4o强劲的竞争对手。
在演示环节中,Astra通过其AI模型Gemini,展示了对各种问题的快速响应和准确理解。
当测试者打开摄像头对着周围环绕,并对它提出要求:“当你看到任何可以发出声音的对象时,请告知我。”
随即得到回应:“我观察到了一个扬声器,它具备发声的功能。”
不仅如此,它还有着惊人的记忆力。当被问及“你还记得在哪里见过我的眼镜吗?”
它毫不犹豫回答:“当然记得,你的眼镜就放在桌子上,紧邻着一个鲜红的苹果。”
强大的理解代码能力,它也没落下。当用摄像头对着电脑屏幕拍摄代码,然后向其提问:“这段代码的主要功能是什么?”
其迅速作答:“此段代码主要定义了加密和解密的功能。它似乎采用了AES CBC加密方式,通过特定的密钥和初始化向量来对数据进行编码和解码。”
对比GPT-4o模型,谷歌明显有备而来。
发布会上,谷歌还宣布了对Gemini模型进行更新,升级后的Gemini 1.5 Pro,将100万Tokens的窗口扩大至200万,将使其能够同时处理2小时的视频、22小时的音频、超过60000行代码或超过140万个单词。
为了满足用户对低延迟和低成本的需求,此次发布会上,谷歌还发布了轻量化模型Gemini 1.5 Flash。
相较于Gemini 1.5 Pro,该版本响应速度更快、成本低至0.35美元每百万tokens。而Gemini 1.5 Pro则针对对高质量内容有需求的用户,收费为7美元每百万tokens。
提升性能的同时,AI大模型们还在不断下压成本、价格,让C端免费、B端降价成为一种行业趋势,这可能也是GPT-4o模型走向免费的真实原因。
价格竞争愈演愈烈这其中,还有国内巨头的贡献。
AI热潮之下,国内大模型参与者众多,头部科技企业包括百度、阿里、腾讯、科大讯飞、商汤科技、字节跳动等。
几乎就在OpenAI和谷歌召开AI“春晚”的同一时间,5月15日,在2024春季火山引擎Force原动力大会上,字节跳动自研豆包大模型也正式亮相。
基于豆包大模型,字节跳动打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等AI创作工具。
而且它又将行业价格打了下来。
据介绍,豆包主力模型在企业市场定价仅0.0008元/千Tokens,即0.8厘就能处理1500多个汉字,比行业便宜99.3%。
根据火山引擎公布价格,一元就能买到豆包主力模型的125万Tokens,大约是200万个汉字,相当于三本《三国演义》。
随着AI大模型之间的价格竞争愈演愈烈,这也显得GPT-4o走向免费,仿佛变得没有多少意外之喜了。
但目前我国在AI大模型不少关键领域与美国存在不少差距。近一两年,ChatGPT、Sora等大模型都来自美国人工智能公司OpenAI。
去年底,《财富》发布首届全球“《财富》人工智能创新者50强榜单”,绝大多数也都是美国企业,中国仅百度一家企业入选该榜单。
整体来看,与美国相比,我国人工智能在底层技术、核心算法、高端芯片、关键基础软件等方面受制于人。尤其是随着近年来被技术封锁,有些差距不断拉大。
但即便如此,AI大模型的“车轮”始终滚滚向前。自ChatGPT发布以来,各大企业纷纷推出大模型,已形成“百模大战”局面。
然而,每当看完大厂们关于AI产品场景的演示,总有人被惊出一身冷汗,特别是做文案、数学老师、程序员和翻译员的群体,纷纷开始忧心自己手中的饭碗。
5月14日,国际货币基金组织总裁表示:“未来两年,对于全球所有国家而言,人工智能可能将冲击40%的工作岗位。”
近些年来,人工智能到底会不会对人类安全造成影响,也在成为热议的话题。
(文章来源:花朵财经观察)
*本文基于公开资料撰写,仅作信息交流之用,不构成任何投资建议