【深度解读：「强化学习+测试时计算」可能是实现通用人工智能(AGI)最可行路

【深度解读：「强化学习+测试时计算」可能是实现通用人工智能 (AGI) 最可行路线】

OpenAI通过使用“强化学习+测试时计算”（reinforcement learning + test-time compute）这一方法，打造出了一个在编程竞赛中表现超群的AI模型。这种方法不仅适用于编程，还为实现AGI，乃至超越AGI的超级智能指明了道路。

- 顶级AI程序员的蓝图：

- OpenAI发布了一篇论文，揭示了创建世界顶级AI程序员的蓝图（图2）。

- 关键在于，这种策略不仅仅适用于编程，也是通往AGI的最清晰路径。

- OpenAI的最新研究：

- 强化学习+测试时计算是构建超级智能AI的关键。

- Sam Altman（OpenAI的CEO）表示，他们的模型在竞争性编程中的排名从175位上升到50位，并预计在年底达到第1位。

- 《使用大型推理模型进行竞争性编程（Competitive Programming with Large Reasoning Models）》论文：

- 比较了不同的AI编程策略。

- 最初，模型依赖于人工设计的推理策略，但最大的飞跃发生在完全去除人类干预之后（图3）。

- DeepSeek-R1模型（图4）：

- 训练成本仅约500万美元。

- 突破在于：具有可验证奖励的强化学习。

- 这种方法（也用于AlphaGo）让模型通过试错学习，并无限扩展智能。

- AlphaGo的类比（图5）：

- AlphaGo在没有人类指导的情况下成为世界上最好的围棋选手。

- 它只是不断地和自己对弈，直到掌握了游戏。

- 现在，OpenAI将同样的原则应用于编程，并很快将应用于所有STEM领域。

- 可验证奖励的领域（图6）：

- 每个具有可验证奖励的领域（数学、编程、科学）都可以通过让AI与自己对弈来掌握。

- AI正在消除人类的局限性，这就是我们实现AGI的方式。

- 编码竞赛的数据（图7）：

- GPT-4：808 ELO（不错）

- OpenAI-01：1673 ELO（更好）

- OpenAI-03：2724 ELO（超人）

- 在竞争性程序员中排名前0.2%，没有人工设计的策略。

- 特斯拉的例子（图8）：

- 特斯拉过去依赖于混合模型（人工规则+ AI）进行全自动驾驶。

- 但当他们转向端到端AI时，性能大幅提升。

- AI只需要更多的计算，而不是更多的人为干预。

- 总结：

- Sam Altman说AGI只是规模化的问题，这是对的。

- 「强化学习+测试时计算」是智能的公式，OpenAI已经在证明这一点。

- 超级智能的诞生：

- 我们正在实时见证AI超级智能的诞生。

- 它不会止步于编程。同样的技术将使AI成为历史上最好的数学家、科学家和工程师。

- AGI竞赛已经开始。

深度解读与分析：

- 强化学习的重要性： Berman强调了强化学习在实现AGI中的关键作用。强化学习允许AI通过与环境的交互（例如，在编程竞赛中提交代码并获得分数）来自主学习，而无需人类明确的指导或规则。这与AlphaGo的成功密切相关，AlphaGo通过自我对弈掌握了围棋。

- 测试时计算： “测试时计算”指的是在模型部署后（即“测试”阶段）继续进行计算和学习。这与传统的机器学习方法不同，传统方法通常在训练完成后停止学习。测试时计算允许模型不断适应新情况并提高性能。

- 可验证奖励： Berman指出，强化学习在具有“可验证奖励”的领域特别有效。这意味着存在一个客观的标准来评估AI的行为是否成功（例如，在编程竞赛中，代码是否通过了所有测试用例）。这使得AI能够通过试错来学习，并朝着明确的目标前进。

- 规模化的力量： Berman多次引用Sam Altman的观点，认为AGI的实现主要是规模化的问题。这意味着，随着计算能力和数据量的增加，AI模型的性能将继续提高，最终达到甚至超越人类的水平。

- 超越编程： Berman认为，OpenAI在编程领域取得的突破具有更广泛的意义。他预测，同样的技术将被应用于其他STEM领域，使AI成为这些领域的专家。

- AGI竞赛： Berman明确表示，AGI的竞赛已经开始。OpenAI的进展表明，AGI可能比许多人预期的更早到来。

潜在影响：

如果Berman的预测是准确的，那么OpenAI的这项研究可能对社会产生深远的影响：

- 科学发现的加速：能在各个STEM领域表现出色的AI可以极大地加速科学发现和技术创新的步伐。

- 经济转型：许多目前由人类完成的工作可能会被AI自动化，这将导致就业市场的重大变化。

- 伦理挑战：超级智能AI的出现将带来一系列伦理挑战，包括如何确保AI的安全性和与人类价值观的一致性。

总而言之，Matthew Berman对OpenAI最新研究的解读强调了强化学习和规模化在实现AGI中的关键作用。他认为，我们正在见证AI超级智能的诞生，这将对社会产生深远的影响。