【深度解读:「强化学习+测试时计算」可能是实现通用人工智能 (AGI) 最可行路线】
OpenAI通过使用“强化学习+测试时计算”(reinforcement learning + test-time compute)这一方法,打造出了一个在编程竞赛中表现超群的AI模型。这种方法不仅适用于编程,还为实现AGI,乃至超越AGI的超级智能指明了道路。
- 顶级AI程序员的蓝图:
- OpenAI发布了一篇论文,揭示了创建世界顶级AI程序员的蓝图(图2)。
- 关键在于,这种策略不仅仅适用于编程,也是通往AGI的最清晰路径。
- OpenAI的最新研究:
- 强化学习+测试时计算是构建超级智能AI的关键。
- Sam Altman(OpenAI的CEO)表示,他们的模型在竞争性编程中的排名从175位上升到50位,并预计在年底达到第1位。
- 《使用大型推理模型进行竞争性编程(Competitive Programming with Large Reasoning Models)》论文:
- 比较了不同的AI编程策略。
- 最初,模型依赖于人工设计的推理策略,但最大的飞跃发生在完全去除人类干预之后(图3)。
- DeepSeek-R1模型(图4):
- 训练成本仅约500万美元。
- 突破在于:具有可验证奖励的强化学习。
- 这种方法(也用于AlphaGo)让模型通过试错学习,并无限扩展智能。
- AlphaGo的类比(图5):
- AlphaGo在没有人类指导的情况下成为世界上最好的围棋选手。
- 它只是不断地和自己对弈,直到掌握了游戏。
- 现在,OpenAI将同样的原则应用于编程,并很快将应用于所有STEM领域。
- 可验证奖励的领域(图6):
- 每个具有可验证奖励的领域(数学、编程、科学)都可以通过让AI与自己对弈来掌握。
- AI正在消除人类的局限性,这就是我们实现AGI的方式。
- 编码竞赛的数据(图7):
- GPT-4:808 ELO(不错)
- OpenAI-01:1673 ELO(更好)
- OpenAI-03:2724 ELO(超人)
- 在竞争性程序员中排名前0.2%,没有人工设计的策略。
- 特斯拉的例子(图8):
- 特斯拉过去依赖于混合模型(人工规则+ AI)进行全自动驾驶。
- 但当他们转向端到端AI时,性能大幅提升。
- AI只需要更多的计算,而不是更多的人为干预。
- 总结:
- Sam Altman说AGI只是规模化的问题,这是对的。
- 「强化学习+测试时计算」是智能的公式,OpenAI已经在证明这一点。
- 超级智能的诞生:
- 我们正在实时见证AI超级智能的诞生。
- 它不会止步于编程。同样的技术将使AI成为历史上最好的数学家、科学家和工程师。
- AGI竞赛已经开始。
深度解读与分析:
- 强化学习的重要性: Berman强调了强化学习在实现AGI中的关键作用。强化学习允许AI通过与环境的交互(例如,在编程竞赛中提交代码并获得分数)来自主学习,而无需人类明确的指导或规则。这与AlphaGo的成功密切相关,AlphaGo通过自我对弈掌握了围棋。
- 测试时计算: “测试时计算”指的是在模型部署后(即“测试”阶段)继续进行计算和学习。这与传统的机器学习方法不同,传统方法通常在训练完成后停止学习。测试时计算允许模型不断适应新情况并提高性能。
- 可验证奖励: Berman指出,强化学习在具有“可验证奖励”的领域特别有效。这意味着存在一个客观的标准来评估AI的行为是否成功(例如,在编程竞赛中,代码是否通过了所有测试用例)。这使得AI能够通过试错来学习,并朝着明确的目标前进。
- 规模化的力量: Berman多次引用Sam Altman的观点,认为AGI的实现主要是规模化的问题。这意味着,随着计算能力和数据量的增加,AI模型的性能将继续提高,最终达到甚至超越人类的水平。
- 超越编程: Berman认为,OpenAI在编程领域取得的突破具有更广泛的意义。他预测,同样的技术将被应用于其他STEM领域,使AI成为这些领域的专家。
- AGI竞赛: Berman明确表示,AGI的竞赛已经开始。OpenAI的进展表明,AGI可能比许多人预期的更早到来。
潜在影响:
如果Berman的预测是准确的,那么OpenAI的这项研究可能对社会产生深远的影响:
- 科学发现的加速: 能在各个STEM领域表现出色的AI可以极大地加速科学发现和技术创新的步伐。
- 经济转型: 许多目前由人类完成的工作可能会被AI自动化,这将导致就业市场的重大变化。
- 伦理挑战: 超级智能AI的出现将带来一系列伦理挑战,包括如何确保AI的安全性和与人类价值观的一致性。
总而言之,Matthew Berman对OpenAI最新研究的解读强调了强化学习和规模化在实现AGI中的关键作用。他认为,我们正在见证AI超级智能的诞生,这将对社会产生深远的影响。