AI“春晚”轮番上演，给智能的机器装上了人类“情感”

花朵财经观察出品

编辑丨铎子

￵AI行业性“春晚”，再次轮番上演。

5月14日凌晨，OpenAI用一场春季发布会，再次搅动整个AI行业。这场发布会，表面上看有点简陋，全程只有26分钟，现场只有几十名观众，却备受瞩目。

最重磅的无异于，新的ChatGPT产品GPT-4o新模型的发布，与现有大模型相比，GPT-4o长出了灵活的“耳朵”、“眼睛”，甚至有了人类“情感”。

换句话说，跟GPT-4o对话就跟真人似的。

有别于此前的付费制，此次GPT-4o还将免费提供给所有用户使用。明眼人都能看出，OpenAI此次诚意满满。

但过后一看，谷歌、字节跳动等紧随其后进入AI“春晚”，相继发布大模型产品，继续加大行业竞争，为抢占市场，GPT-4o走向免费，似乎又并不意外。

AI有了“情感”

“像真人一样与人交流。”

本次GPT-4o新模型，能实时按要求变换语音语调，甚至能跟测试者开玩笑，自然连贯得就像坐在身边的老朋友，完全没有机器人的僵硬感。

当测试者向它发问：“我正在台上，给大家做现场演示呢，我有点紧张，该怎么办呀？”

GPT-4o非常体贴地回答：“你在台上做演示吗，那你真的太棒了！深呼吸一下吧，记得你是个专家！”

而后，测试者疯狂地大喘气几次，问能给自己什么建议没？

GPT-4o还长出了灵活的“耳朵”，能听懂的不仅有语言，还能听懂过于急促的呼吸声。它惊讶地回复：“放松啊Mark，慢点呼吸，你可不是个吸尘器！”

它的幽默感，引起全场哄笑。

在被要求给大家讲个睡前故事，没讲几秒，就被打断，要求能不能多点情绪和戏剧性？

GPT-4o又有了人类的情感表现，说话语调开始变的有起伏、有情绪。

当再次被打断，要求能不能再来点情感，最戏剧化的表达？我们又听到了一个仿佛在舞台上表演莎剧的人，语气就像个戏剧演员。

多次被打断后，还被要求唱歌时，GPT-4o甚至叹了口气，无奈叹气的瞬间，让人十分真实的感受到了它的“情绪”。

但它还是很有耐心地按照测试者的要求，依次变成了唱歌模式。

不仅如此，它还长出了“眼睛”，可以通过摄像头，做出判断。

把摄像头权限开放给它，它能给盲人提供环境观察，给盲人讲述看到的景色，并提醒盲人过马路的路况。

GPT-4o还能化身在线导师，在线帮助解题，可以要求它只给提示，不能直接说出答案，引导用户一步一步解题。

演示完震惊全场的场景后，GPT-4o还有彩蛋。

不仅将免费提供给所有用户使用，OpenAI还发布了ChatGPT桌面版本，让其可以更轻易地和我们的工作融为一体。

正如OpenAI CTO Mira Murati一出场时所说：“对OpenAI来说，打造一款真正让所有人可用的产品，非常重要。”

谷歌硬刚OpenAI

GPT-4o收获了雷鸣的掌声，然而OpenAI风光背后，竞争也在增加。

就在OpenAI发布GPT-4o的24个小时后，谷歌召开了一场两小时的I/O大会，会上共提及“AI”121次，并发布了多项产品。

其中，一款名为Project Astra的AI智能体产品，具备多模态实时推理能力，能够跨越文本、音频和视频等多种模态进行信息处理，也可通过摄像头捕捉并处理视觉信息，是GPT4o强劲的竞争对手。

在演示环节中，Astra通过其AI模型Gemini，展示了对各种问题的快速响应和准确理解。

当测试者打开摄像头对着周围环绕，并对它提出要求：“当你看到任何可以发出声音的对象时，请告知我。”

随即得到回应：“我观察到了一个扬声器，它具备发声的功能。”

不仅如此，它还有着惊人的记忆力。当被问及“你还记得在哪里见过我的眼镜吗？”

它毫不犹豫回答：“当然记得，你的眼镜就放在桌子上，紧邻着一个鲜红的苹果。”

强大的理解代码能力，它也没落下。当用摄像头对着电脑屏幕拍摄代码，然后向其提问：“这段代码的主要功能是什么？”

其迅速作答：“此段代码主要定义了加密和解密的功能。它似乎采用了AES CBC加密方式，通过特定的密钥和初始化向量来对数据进行编码和解码。”

对比GPT-4o模型，谷歌明显有备而来。

发布会上，谷歌还宣布了对Gemini模型进行更新，升级后的Gemini 1.5 Pro，将100万Tokens的窗口扩大至200万，将使其能够同时处理2小时的视频、22小时的音频、超过60000行代码或超过140万个单词。

为了满足用户对低延迟和低成本的需求，此次发布会上，谷歌还发布了轻量化模型Gemini 1.5 Flash。

相较于Gemini 1.5 Pro，该版本响应速度更快、成本低至0.35美元每百万tokens。而Gemini 1.5 Pro则针对对高质量内容有需求的用户，收费为7美元每百万tokens。

提升性能的同时，AI大模型们还在不断下压成本、价格，让C端免费、B端降价成为一种行业趋势，这可能也是GPT-4o模型走向免费的真实原因。

价格竞争愈演愈烈

这其中，还有国内巨头的贡献。

AI热潮之下，国内大模型参与者众多，头部科技企业包括百度、阿里、腾讯、科大讯飞、商汤科技、字节跳动等。

几乎就在OpenAI和谷歌召开AI“春晚”的同一时间，5月15日，在2024春季火山引擎Force原动力大会上，字节跳动自研豆包大模型也正式亮相。

基于豆包大模型，字节跳动打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”，以及星绘、即梦等AI创作工具。

而且它又将行业价格打了下来。

据介绍，豆包主力模型在企业市场定价仅0.0008元/千Tokens，即0.8厘就能处理1500多个汉字，比行业便宜99.3%。

根据火山引擎公布价格，一元就能买到豆包主力模型的125万Tokens，大约是200万个汉字，相当于三本《三国演义》。

随着AI大模型之间的价格竞争愈演愈烈，这也显得GPT-4o走向免费，仿佛变得没有多少意外之喜了。

但目前我国在AI大模型不少关键领域与美国存在不少差距。近一两年，ChatGPT、Sora等大模型都来自美国人工智能公司OpenAI。

去年底，《财富》发布首届全球“《财富》人工智能创新者50强榜单”，绝大多数也都是美国企业，中国仅百度一家企业入选该榜单。

整体来看，与美国相比，我国人工智能在底层技术、核心算法、高端芯片、关键基础软件等方面受制于人。尤其是随着近年来被技术封锁，有些差距不断拉大。

但即便如此，AI大模型的“车轮”始终滚滚向前。自ChatGPT发布以来，各大企业纷纷推出大模型，已形成“百模大战”局面。

然而，每当看完大厂们关于AI产品场景的演示，总有人被惊出一身冷汗，特别是做文案、数学老师、程序员和翻译员的群体，纷纷开始忧心自己手中的饭碗。

5月14日，国际货币基金组织总裁表示：“未来两年，对于全球所有国家而言，人工智能可能将冲击40%的工作岗位。”

近些年来，人工智能到底会不会对人类安全造成影响，也在成为热议的话题。

（文章来源：花朵财经观察）

*本文基于公开资料撰写，仅作信息交流之用，不构成任何投资建议

魔女团新闻

AI“春晚”轮番上演，给智能的机器装上了人类“情感”

建花朵