【#DeepSeek新模型惊现顿悟时刻#】1月20日,杭州深度求索人工智能基

钱江晚报 2025-01-27 10:10:13

【 #DeepSeek新模型惊现顿悟时刻# 】1月20日,杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”)正式发布DeepSeek-R1模型。

1月24日,一名Meta员工在在匿名平台teamblind上称,现在Meta内部因为DeepSeek的模型,已经进入恐慌模式。

几天后,DeepSeek-R1跻身大模型竞技榜前三,与ChatGPT-4o齐名,超越Google Gemini、Microsoft Copilot等美国科技公司的生成式AI产品。

在DeepSeek-R1 之前,该公司还有一个模型DeepSeek-V3。二者有什么区别?简单来说,R1是在V3的基础上,又训练出的新模型。

“此次最大看点便是,DeepSeek-R1 后训练阶段中,大规模使用了强化学习技术,这一技术让大模型学会了自己训练自己,就像秒杀的AlphaGo的AlphaZero一样,通过自我博弈来进化而不是通过人类的教导取得进步。” 北京理工大学校外硕士生导师、无界AI联合创始人马千里说道。

除此之外,此次DeepSeek-R1还融合了“思维链”,在解决问题时,会生成一系列中间推理步骤。

就像是解题时,有人喜欢将每一步骤都详尽地写在卷子上,而 DeepSeek-R1更进一步:把内心 OS 也都写出来了。“这样的方式能够较大程度减少大模型给出错误或者虚幻的信息。”马千里解释道。

让人惊讶的是,此次DeepSeek-R1 出现了“尤里卡时刻”(aha moment 又称顿悟时刻)——这一现象原指人类突然理解一个以前无法理解的问题或概念的某个时刻。

也就是说,模型在推理过程中会突然停下来说"等等", 然后自发地重新评估之前的步骤,并进行反思,类似于人类的“灵光一现”。

最近,来自加州伯克利大学在读博士 Jiayi Pan 的研究团队更是成功地以极低的成本(低于30美元)复现了 DeepSeek R1-Zero 的关键技术——顿悟时刻。 详细: (潮新闻 记者 张云山 赵艺乔)#全球掀DeepSeek复现狂潮# #DeepSeek新模型火到海外#

0 阅读:4
钱江晚报

钱江晚报

钱江晚报官方账号