o1就是GPT-5!前OpenAI首席研究员大爆猛料,揭露罕见内部视角!

技术创新发展界 2024-12-21 15:50:30

OpenAI第10天的更新还有人追吗?

今天这个脑洞大开的上新,把期待GPT-4.5的通义大佬直接看懵了——咋是Phone call呢?

没错,今天上线的就是这个:ChatGPT的热线电话。美国用户拨打1-800-ChatGPT(1-800-242-8478),即可随时随地和AI热聊……

网友又开始建议OpenAI:没活了就去咬个打火机。

还是说回下一代模型,GPT-4过去一年半了,OpenAI一直遛观众就是不发新成果。

昨天,OpenAI前首席研究官Bob McGrew的播客首秀上线,直接给人干绝望了:o1就是GPT-5。只是我们决定叫它o1。

“GPT-4 已经是大约一年半前的成果,而在它发布之前就已经完成了训练。那么问题是:为什么之后没有什么新东西出来呢?”

Bob说在这个问题上内外部视角会完全不同。外界的人会想:“我们是不是遇到了数据瓶颈?到底发生了什么?” 而内部更能感知到,计算能力如何限制了预训练的进一步进展——每下一代就增加100倍计算量。

因此他说,“o1本质上本质上是一代新的模型,比GPT-4增加了100倍的计算。很多人没有意识到这一点,因为当时的决定是将其命名为 o1 而不是 GPT-5。”

也因此,他和Ilya「预训练已到尽头」的论断不同,他认为预训练仍有潜力,根本问题是「等待新的数据中心的建成」。

在o1预览版发布后一天,Bob就宣布了辞职。他说,在OpenAI工作的八年中,他完成了包括预训练、多模态推理等许多的目标。尤其在o1的特别项目后,他觉得是时候把工作交给年轻人了。

即使在AI炒作盛行的今天,他认为o1仍然被低估了。“虽然o1被很多人谈论,但是否受到了恰当的关注?并没有。我认为它被低估了”。

关于封闭的OpenAI,前CRO Bob McGrew 带来了罕见的内部视角,让我们能深入地一探究竟:OpenAI到底发生了什么?AI撞墙了吗?为什么说o1被低估了?下一代模型到底还来不来了!

上图:Bob的工作经历

以下是播客内容的精华整理,enjoy:

1.o1就是GPT-5,预训练还将继续

主持人:先从一个目前大家都很关心的问题开始。这个问题围绕着一个大的争论点——我们是否在模型能力上已经遇到了瓶颈。所以我很想听听你的看法,以及你觉得在预训练方面是否还有潜力可挖。

Ilya认为预训练即将终止

Bob McGrew :这是一个外界观察者和大实验室内部视角差异最大的话题之一。

我觉得,从外界的角度来看,很多人可能是从 ChatGPT 开始关注 AI 的,然后六个月后,GPT-4 出现了,大家感觉进展很快,一切都在加速发展。但随后你会发现,GPT-4 已经是大约一年半前的成果,而在它发布之前就已经完成了训练。那么问题是:为什么之后没有什么新东西出来呢?

而内部的视角则完全不同。外界的人会想:“我们是不是遇到了数据瓶颈?到底发生了什么?” 但必须记住,特别是在预训练的进展上,这需要在计算能力上有大幅度的提升。从 GPT-2 到 GPT-3,或者从 GPT-3 到 GPT-4,这意味着计算能力的有效提升达到 100 倍。这种提升依赖于多个方面的组合,比如增加更多计算单元、更大规模的数据中心,以及算法改进。

算法改进确实能带来一些提升,比如 50%、2 倍甚至 3 倍的提升已经非常惊人了。但从根本上来说,你还是需要等待新的数据中心建成。事实上,现在正在建造的新数据中心并不少。你可以看看新闻,会发现 Meta 和其他前沿实验室正在建设新的数据中心,尽管有些可能不会成为新闻。

但从根本上来说,这是一个非常缓慢的多年进程。实际上,在看到 GPT-4 到 GPT-5 的全面提升之前,你可能会先看到一个仅有 10 倍提升的版本。人们往往忘记了我们是从 GPT-3 到 GPT-3.5,再到 GPT-4。

目前有趣的一点是,我们在使用强化学习进行改进时取得了一些进展。以 o1 为例,从多个指标来看,它的计算能力比 GPT-4 高了 100 倍。我想很多人没有意识到这一点,因为当时的决定是将其命名为 o1 而不是 GPT-5。但实际上,这本质上是一代新的模型。

当 GPT-4.5 或下一个世代的模型完成训练时,有趣的问题会是:这种预训练的进展如何与强化学习过程叠加起来?我觉得这将是我们需要等待宣布的东西。

主持人:最大的一个问题是,随着多同步过程进入2025年,你认为明年在 AI 领域会有像去年一样的进展吗?还是说事情可能会开始变得慢一些?

Bob McGrew :嗯,我认为会有进展,不过这会是不同类型的进展。你知道,当你进入下一代模型时,总会遇到上一代没看到的问题。所以,即使数据中心已经建立起来,仍然需要时间去解决问题并完成模型。我们用来训练 o1 的强化学习过程,OpenAI 用来训练 o1,实际上它是通过创造一个更长的、连贯的思维链,实际上就像是把更多计算能力压缩到答案里。

所以,你知道,如果你有一个模型需要几秒钟来生成一个答案,而另一个模型可能需要几个小时来生成答案,如果你能充分利用这个过程,那就是 10000 倍的计算能力差距。老实说,我们从大概2020年开始就在思考如何在测试阶段利用计算能力,直到现在,我觉得这才是真正的答案,如何做到这一点,而不浪费太多计算资源。

更棒的是,这并不需要新的数据中心。所以在这里,有很多空间可以改进,这是一个刚刚开始的全新技术,还有很多算法上的改进空间。理论上没有理由不能将用于 o1 的基本原理和方法,扩展到更长的思考时间。你看,从 GPT-4 能做到几秒钟到 o1 花 30 秒、一分钟,甚至几分钟的时间去思考,你也可以把这些技术扩展到几小时甚至几天。

当然,像我们从 GPT-3 到 GPT-4 的升级一样,并没有出现什么基础性的、全新的技术,二者的训练方式基本相同,但规模化是非常困难的。所以,实际上最重要的就是能否做到这种规模化。我认为,这就是我们在 2025 年会看到的最令人兴奋的进展。

2.让o1真正发挥价值的,应该是Agent

主持人:你看到o1有哪些有趣的工作案例?

Bob McGrew :当我们考虑发布o1预览时,有很多问题:人们会使用它吗?我需要用这个模型做什么,才能真正从中获得价值?

你知道,编程是一个很好的用例。另一个例子是,如果你正在写一份政策简报,你正在写一份很长的文件,它需要做出感知,需要把所有的东西联系在一起。

事实上,大多数非程序员的人没有像这样每天需要做的事情。但是回到这里潜在的突破,那就是你有一个连贯的思想链,一种连贯的,你知道的,在问题上取得进展的方式。

这不仅需要考虑问题,还可以采取行动,制定行动计划。所以,我最感兴趣的是像o1这样的模型,我相信很快会有其他实验室的其他模型使用它们来真正实现长期行动。

你知道,基本上是智能体——虽然我觉得这个词被用得太多,已经不太能准确传达我们真正想做的事情了。但我生活中有各种任务,我希望模型能为我预定、为我购物、为我解决问题,方式是它与外界互动。所以我认为我们真正需要搞清楚的是这个形式因素是什么?我们怎么做?我觉得还没有人完全搞明白这一点。

主持人:完全能理解。我觉得每个人都会想象这些代理人能做什么,能为个人和企业解决多少问题。那么,今天我们距离实现这一点还有哪些大问题呢?显然,你已经看到了一些早期模型,比如 Anthropic 发布的计算机使用模型,当然,其他实验室也在做这方面的工作。那么,当你考虑什么阻碍我们今天实现这一目标时,最难解决的问题是什么?

Bob McGrew :要解决的难题还有很多。我认为最紧迫的问题是可靠性。

如果我让某个代理人暂时先不做事情,如果我让一个代理人代表我做某件事,哪怕只是写一些代码,假设我需要离开 5 分钟或者 1 个小时,让它自己工作,如果它偏离任务并且犯了个错误,我回来时发现它什么都没做,那我就浪费了一个小时,这可是个大问题。

再加上这个代理人将要在现实世界中采取行动。也许它为我买了东西,或者提交了一个 PR,或者代表我发送了一封邮件、Slack 消息。如果它做得不好,那就有后果了。至少我会感到尴尬,可能还会损失一些钱。

因此,可靠性变得比过去更加重要。我认为,在考虑可靠性时有一个经验法则,从 90% 提高到 99% 的可靠性,可能需要在计算上增加一个数量级。你知道,这是一个 10 倍代数。而从 99% 到 99.9% 的可靠性,又是另一个数量级。所以每增加一个 9,就需要模型性能的巨大飞跃。你知道,10 倍的改进,这是非常大的进展,相当于一年或两年的工作量。所以我认为,这确实是我们将面临的第一个问题。

3.谈多模态,下一代Sora生成时长一小时

主持人:还有什么特别感兴趣的领域吗?

Bob McGrew: 另一个非常令人兴奋的事情是多模态的“大日子”。今天的多模态“大日子”标志着一个漫长历程的高潮。在2018年左右,变换器(Transformer)技术被发明出来后,一个显而易见的事实是:这种技术可以被应用于其他模态。

多模态包括视觉模态,如图像输出,还有音频输入和输出。一开始,这些功能主要存在于独立的模型中,比如“DALL-E”或“Whisper”。最终,它们被整合进主模型中。而长期以来抵制整合的模态之一是视频模态。你知道,Sora(模型)可能是第一个展示这种技术的案例,之后也有其他公司推出相似的模型,但现在 Sora 自身已经正式发布了。

视频与其他模态相比有两个有趣且不同的特点。

在创建图像时,你可能只需要一个提示,模型就可以生成一张图像。如果你是专业的平面设计师,可能会对细节进行调整。但对大多数人来说,图像的用途是很直观的,比如用于幻灯片、推文或演示文稿。

但视频则不同。它是一个扩展的事件序列,而不是一个简单的提示生成过程。因此,你需要一个完整的用户界面,并考虑如何让这个故事随着时间的推移展开。

这也是 Sora 发布中的一个关键点。相比其他平台,Sora 的产品团队在这方面投入了更多时间来思考。此外,视频制作的成本非常高。

训练和运行这些视频生成模型的成本都非常高。尽管 Sora 的视频质量很出色,但想要看出明显的质量提升需要仔细观察——特别是短时间片段时。现在,任何拥有 Plus 账户的用户都可以使用 Sora 模型。OpenAI 还推出了每月 200 美元的 Pro 账户,允许用户进行不限速的 Sora 视频生成。拥有这样的质量和分发能力解决了两大难题,而这对竞争者来说将是一个很高的门槛。

主持人:你觉得未来几年,生成式视频模型会发展成什么样子?在 LLM 模型领域,模型每年都变得更快、更便宜,你预计视频领域会有类似的改进吗?

我认为类比是非常直观的。未来两年,视频模型的质量会更高。现在的即时生成质量已经很好了,例如反射、烟雾等复杂效果都能实现。困难之处在于延续性和连贯性。Sora 的团队开发了一个故事板功能,允许用户每隔 5 秒或 10 秒设置检查点,引导生成过程。

从几秒钟的视频生成扩展到一个小时的视频,这依然是一个难题。我认为这是你会在下一代模型中看到的。我认为未来的视频模型将和 GPT-3 的发展类似。GPT-3 刚发布时生成一个高质量 token 的成本比现在高 100 倍。同样,未来 Sora 的高质量视频生成成本也会大幅降低。

主持人:AI 是否可能制作出完整的电影,甚至赢得一些奖项?你认为大概会在什么时候实现?

Bob McGrew:老实说,获奖的门槛其实有点低。真正的问题是,这是不是一部你真的想看的电影?我认为两年内我们会看到这样的电影。但电影吸引人的原因不会是因为技术,而是因为导演有独特的创意,并利用视频生成模型实现这些创意。这些是传统电影无法完成的。

4.OpenAI的多次“重建”:必然的选择

主持人:我们很幸运能够研究过Palantir和OpenAI,当你想到OpenAI时,已经有很多文章讲述了Palantir文化的独特之处。我相信将来会有很多关于它文化的文章,你认为这些文章会说什么?

Bob McGrew :是的,我想其中一部分是与研究人员合作,这是我们刚才讨论过的。

OpenAI另一个非常特别的地方是,它经历了很多次转型,甚至可以说是多次“重建”。当我加入OpenAI时,它是一个非营利组织,公司的愿景是通过撰写论文来实现AGI(通用人工智能)。但我们知道这种方法不对劲。很多早期的成员,包括Sam(Altman)、Greg(Brockman)和我自己,都是初创公司的背景。那时候,这条实现AGI的道路总感觉不太对。几年后,OpenAI从非营利组织转变为营利性组织,这在公司内部引起了极大的争议。部分原因是,我们意识到迟早要与产品打交道,必须考虑如何盈利。

与微软的合作也是一个“重建时刻”,并且非常有争议。赚钱已经是一回事,但把利益交给微软这样的科技巨头?这在当时被认为是极具争议的决定。之后,我们决定不仅与微软合作,还要利用API构建自己的产品。最后,通过ChatGPT将消费者与企业用户结合起来。这些转变中的任何一个,放在一般初创公司身上都会具有决定性意义。而在OpenAI,这种根本性的变化大约每18个月到两年就会发生一次。我们从撰写论文的角色,转变为构建一个全世界都能使用的模型。这种变化确实很疯狂。如果在2017年问我们正确的使命是什么,我们可能不会选择通过写论文实现AGI,而是希望建立一个每个人都能使用的模型。只不过当时我们不知道如何实现目标,只能通过探索不断发现。

主持人:你认为是什么让你们如此成功地实现了这些重大转变?

Bob McGrew :我认为,主要是出于必要性。没有一次转变是随意选择的。

例如,当你运营一个非营利组织,资金耗尽时,你必须找到筹集资金的方法。为了筹集资金,你可能需要成为一个营利性机构。与微软合作也是类似的情况,也许他们一开始并没有看到我们创建的模型的价值,所以我们需要开发一个API,通过这种方式向他们证明这些模型确实受到人们欢迎。

至于ChatGPT,我们在GPT-3发布后就确信,如果取得一些关键的技术进步,模型不应该仅仅以API的形式出现,而是可以直接进行对话的工具。所以这个转变是比较有意识的。然而众所周知,它的发布方式有些偶然。当时,我们正在研发中,实际上已经完成了GPT-4的训练。我们希望等模型足够好的时候再发布。

2022年11月,我们内部测试ChatGPT时,并不认为它完全达标。但领导团队的John Schulman坚持说,“我们应该发布它,获得一些外部反馈。”我记得当时觉得,如果能有1000人使用就算成功了。我们设置的成功门槛很低,并做出了一个关键决定——没有将它放在等待名单之后。而最终,全球用户的热情让它迅速流行起来。

2 阅读:271