迈出“登月”第二步:Kimi发布对标o1系列数学模型,杨植麟聚焦做减法

每日经济新闻 2024-11-18 22:41:12

正如这家公司的名字一般,月之暗面,总是一个令人好奇的存在。11月16日下午,在KimiChat上线一周年之际,公司创始人杨植麟罕见现身,在多家媒体面前走出了“登月”第二步。

“如果说长文本是月之暗面‘登月’的第一步,那么提升模型深度推理能力则是第二步。”当日,身穿一件黑色公司文化衫的杨植麟发布了新一代数学能力可对标OpenAIo1系列的数学推理模型k0-math。当新模型在众人面前进行数学题“测试”时,这位原本略显羞涩的90后“创业明星”终于来到了自己的主场,看着数字、公式一行行地弹出,兴奋地讲解着其中的原理。

据介绍,这是Kimi推出的首款推理能力强化模型,采用了全新的强化学习和思维链推理技术,这与杨植麟对行业技术发展的判断方向一致,“接下来最重点的东西会在强化学习上,范式上会产生变化,它还是Scaling(扩展),只是通过不同的方式去Scale”。

在k0-math的表现方面,月之暗面方面披露,在中考、高考、考研以及包含竞赛题的MATH等数学基准测试中,k0-math初代模型成绩已经超过o1-mini和o1preview模型,仅次于o1完全版。

“月之暗面大概率能说是,在OpenAIo1发布后,国内首个摸索出并实现o1思路的公司。”一位国内头部互联网公司的大模型技术人员在接受《每日经济新闻》记者采访时表示,“现在国内想要赶超o1的大模型团队都会以数学领域为第一步,因为不需要大量的标注数据,成本最低,而且有可验证的标准答案。”

月之暗面的下一步是什么?“Kimi目前最核心的任务是提升留存。”杨植麟在接受《每日经济新闻》记者采访时表示,“基本上它跟你的技术成熟度或者技术水平也是一个正相关的关系,所以对我们当前来说是最重要的。假设我们以最后AGI这个目标作为衡量,我觉得现在还在初级阶段。”

数据显示,截至今年10月,Kimi月活已超3600万人,而且在持续增长。

接下来重点在强化学习

发布会上,月之暗面公布了k0-math的目前测评得分:在业界最常使用的数学能力基准测试MATH中,k0-math模型得分93.8分,超过o1-mini的90分和o1-preview的85.5分,仅次于o1完全版的94.8分。

“什么样的场景最适合让AI锻炼思考能力?我们认为是数学场景。”发布会现场,杨植麟表示,在训练该模型的过程中,最重要的是看其是否真正具备深度思考的能力。

据介绍,相较于以尽快提供答案为关键目标的常规模型,k0-math模型在做题过程中会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。

不过,杨植麟也指出,虽然k0-math模型擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。此外,它可能会对“1+1=?”这样过于简单的数学问题进行过度思考,对于解决高考难题和IMO(国际数学奥林匹克竞赛试题)依然有一定局限性。

根据月之暗面的介绍,k0math模型采用了全新的强化学习和思维链推理技术,这也是业内普遍认为OpenAIo1系列的技术关键所在,行业范式也在因此发生改变。

“AI的发展就像荡秋千,我们会在两种状态之间来回切换:有时候,算法、数据都很完备了,但是算力不够,我们要做的就是加算力;但今天我们发现,不断扩大算力规模不一定能直接解决问题,所以这时就需要通过改变算法,来突破瓶颈。”杨植麟表示。

就业内对ScalingLaw(规模法则)逐渐放缓的看法,杨植麟认为,预训练还有空间,大概半代到一代的模型,这个空间会在明年释放出来,“明年,我觉得领先的模型会把预训练做到一个比较极致的阶段”。

“但我们判断,接下来最重点的东西会在强化学习上,就是范式上会产生一些变化。本质上,它还是Scaling,并不是不用Scale,只是说你会通过不同的方式去Scale,这是我们的判断。”他表示。

同时,他指出,该数学推理模型的推出,一方面在教育产品、Kimi整体的流量里有非常大的价值;另一方面,该模型上的技术可以放在更多场景里,比如让Kimi探索版去做更多的搜索。

最核心的是提升留存

在今年6月的一次媒体采访中,杨植麟多次以“聚焦”作为对创业思路、成功经验的回应,“在技术和产品上可能我们都希望更加聚焦”,“因为你如果什么东西都做了,可能最后也很难做好”。

不久前,有消息称,月之暗面几位出海产品负责人已于近期离职创业。此外,今年9月,月之暗面决定停止更新两款已上线的出海产品——Ohai和Noisee,暂时收缩了出海toC(面向消费者)应用。

在发布会现场,杨植麟间接回应了上述市场传言:“我们没有人才流失,我们主动做了业务减法。”

这一思路的确定在今年春天,杨植麟观察了月之暗面的具体发展并对美国市场进行了判断,得出结论:的确得做减法,而不是疯狂做加法。

“我们一开始尝试过几个产品一块做,这在一定时期内奏效,但后来发现,这样就活生生把自己变成大厂了,没有任何优势。”杨植麟将锁定“聚焦”视为过去一年较大的课题,“砍业务本质上也是在控制人数。这几个大模型创业公司里,我们始终保持人数最少,始终保持(显)卡和人的比例最高,这非常关键。我们不希望团队扩那么大,这对创新有致命性伤害。另外我们也会根据美国市场的情况,判断哪个业务做大的概率更高”。

聚焦Kimi,当下最为核心的任务是什么?杨植麟在接受《每日经济新闻》记者采访时给出了答案:提升留存,“永无止境”。

“因为留存是技术成熟的重要指标,并且(现在的留存)还有非常大的提升空间。我们的模型能力跟产品指标是高度相关的。”他解释,“目前我们的模型可能思考能力还不够强,交互还不够丰富,我们把这些东西做得更好之后,留存会进一步上升。”

第三方机构QuestMobile发布的《中国移动互联网2024年秋季报告》显示,截至2024年9月AIGCApp月度活跃用户同比增长393.9%,豆包、文小言、Kimi智能助手App月活用户分别达到4197.6万人、1191.5万人和1024.8万人,活跃用户3日留存率分别为39.1%、31.2%和32.2%。

在发布会上,杨植麟表示,截至2024年10月,Kimi月活已超3600万人,而且数据在持续增长。

在行业的多模态进展方面,界面新闻曾报道,Runway联合创始人曾在11月9日公开表示,OpenAI计划在大约两周内发布Sora。

杨植麟透露,内部几个多模态的能力在内测,“关于多模态,我觉得AI接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互,不是说交互不重要,我觉得思考会决定上限,交互是一个必要条件”。

在OpenAI出新牌后,Kimi又一次成为国内第一个“跟牌者”,在这场焦灼的牌局中,杨植麟和月之暗面拿出了留到最后的决心。

0 阅读:6