文生视频、文生音乐、单次处理200万字,2024年AI席卷一切?

物联事要从芯说 2024-04-02 19:56:52

2月,OpenAI发布文生视频大模型Sora,特点在于Sora可以根据用户提供的文本创建连贯、逼真的视频,且时长能做到60S,远超行业平均文生视频长度。一般认为,Sora将在广告、短视频、影视、游戏等行业引发变革。

3月,文生音乐应用模型Suno V3引发大范围关注,因其只需要一句提示语(比如描述音乐风格和主题),就能创作出满足用户需求的音乐作品,歌曲时长可达2分钟,并且无需用户具有专业乐理知识。如果产品成熟,未来有可能替代广告、电视、影视等行业部分音乐创作。

国内,上周AI大模型明星企业月之暗面宣布旗下Kimi智能助手已支持200万字无损上下文输入,半年内单次可以处理的数据长度从20万级跃迁到了200万级。Kimi描述如此大规模输入能力的价值,在于过去要10000小时才能成为专家的领域,现在只需要10分钟,Kimi就能接近这个领域初级专家的水平。比如用户上传英伟达过去几年的完整财报,就可以让Kimi成为英伟达财务研究专家,帮用户分析总结英伟达历史上的重要发展节点。目前,支持200万字上下文的Kimi正在内测阶段。预计,这样的能力将在客户咨询等行业将产生影响。

无论是Sora、Suno V3、Kimi还是ChatGPT,它们都是基于AI大模型的变革性的、软件形态的生产效率工具,属于生成式AI的范畴。适用的行业并非是单纯的互联网或移动互联网,而是一个个正在生成内容并且早有固化知识库的行业,无论内容形态是文字、图像、视频或者其他。

所以,又有一大批与AI相关的科技上市公司,正在被投资者询问对Kimi、对生成式AI的看法与是否布局。

人工智能的发展经历了3个阶段

大模型将人工智能的关注点从感知智能转向生成式内容

人工智能第一个阶段是上世纪末的专家系统时代,特征是将专家的领域知识转变为计算机模型,用以推理并得出与专家相同的结论。

第二阶段是不久前的“机器学习+深度学习”时代,在以CNN、RNN为代表的神经网络的赋能下,比如车牌识别、人脸识别这类计算机视觉应用,识别准确率从过去的92%、93%,提高到了99%以上,在该阶段有部分产品彻底实现了产品化、规模化应用。

第三阶段即是眼下的大模型时代,起源是2017年谷歌发表的一篇论文《AttentionIsAllYouNeed》,里面提出了革命性的Transformer深度神经网络,一举将深度学习的模型参数提高到了上亿级别,并且在之后的迭代发展中,模型参数被逐步提升到了几十亿、几百亿甚至几千亿,意味着模型的复杂程度和学习能力逐步提高,越来越有接近人的表现。

也就是说,大模型产品并非采用上个时代模型参数受限的CNN、RNN架构,而是借助Transformer另起炉灶,达到了一种类似“小孩开窍”的「涌现」现象——当模型突破某个规模时,能力水平直线上升。

这也就是技术积累到一定程度后,近年我们尤其觉得AI能做的事情更多了,并且效果更好,比如文本生成、语言理解、知识对话、逻辑推理等等。

再由于Transformer是一项新技术,无论是传统玩家还是新兴企业都处在接近的起跑线,业界参与大模型的玩家就非常多、类型非常广,各方都希望通过大模型抓住新一轮产业机会。

对AI的焦虑、炒作背后

还有哪些真相?

与媒体或资本的炒作不同,业内也对大模型、生成式AI有清醒的认知。

首先,生成式AI很难完全取代人类,更强调对智力工作进行替代或加强,衡量标准可以是对人类工作的替代率达到10%还是20%甚至30%、40%,但无论如何,更高要求的工作可能还需人类完成。

其次,大模型能力可分为知识、推理、执行三层结构。现在很多生产力工具解决的是知识层的问题,推理层还鲜少进入,执行层的想象空间最大。

另外,有些大模型的商业化可能是形成标准化的产品,但也有些大模型商业模式是“产品+服务”,其服务阶段要完成对企业业务的咨询、对数据的理解、对模型的训练/部署/调优等工作,实现起来更加复杂。

这也是为什么,除了存在追逐热点的一批企业,也存在另一批直白表达对生成式AI保持观望的公司,相比于成为技术的创新者,行业中的大多数应该在等待着成熟的AI应用,为真正的核心业务发展带来增益。

至于在AI浪潮中受益最早并且最大的公司,极有可能是英伟达。因为大模型的技术壁垒在于数据、算力和算法,而英伟达可称为是全球算力市场金字塔尖的企业。

0 阅读:0