分享一下DarioAmodei谈推理模型这一段:关于推理模型,我们的观点稍

真的不是郑小康 2025-01-23 16:40:27

分享一下 Dario Amodei 谈推理模型这一段:

关于推理模型,我们的观点稍有不同。

一直以来,人们似乎将推理模型和测试时计算 test-time compute 视为一种完全不同的做事方式。但我们并不这么看。

我们更倾向于将其视为一个连续的谱系——模型能够思考、反思自身的思考,并最终得出结果。如果你使用的是 Sonnet 3.5,它在某种程度上已经做到了这一点。

但我认为我们将看到的变化是更大规模地使用强化学习,而当你用强化学习来训练模型时,它会开始更多地思考和反思。

推理或测试时计算——不管它叫什么——并不是一种全新的方法。它更像是一个涌现属性,是大规模基于结果训练模型的必然结果。我认为这将导致一种在推理和其他任务之间持续插值的东西,使推理能够与模型所做的一切其他事情无缝结合。

正如你所说,我们通常专注于确保使用模型是一种顺畅的体验,让人们能够充分利用它。我认为在推理模型方面,我们可能会采取类似的方法,做一些与其他人不同的事情。

----

这当然是在评论 OpenAI o 系列,当然也包括国产的例如 DeepSeek R 系列。

我比较认同 Anthropic 这个逻辑,即定义不同取向的模型可能不是必要的,也许我们能找到一种方法,让模型无缝地在系统一二之间流转,甚至没有系统一二之分——这是一个连续的谱系。

0 阅读:0
真的不是郑小康

真的不是郑小康

感谢大家的关注