OpenAI 刚刚发布 o3 ,作为2024 年末 12 天直播的压轴大戏,再次震撼了所有人,人类通往 AGI 已经没有阻碍! 来看看 o3 有多恐怖? 在全球编码竞赛平台 Codeforces,干到了全球第 175 名,超越 99.99% 的程序员。 软件工程考试(SWE-Bench Verified),准确率达到了 71.7%,而满血 o1 的成绩是 49%。 数学方面,由全球几十位顶级数学家,开发的FrontierMath 数据集上,题目完全是新的,确保不会通过记忆,成绩是 25.2,看着好像不高?在 o3 之前,所有的 AI 最好成绩是 2。 智商足足提高了 10 几倍! 更牛逼的是 ARC-AGI 的测试,它是一系列抽象和推理任务,名字带 AGI,真的非常考验智力和推理,不是死记硬背就行。 GPT-4o 通过率 5%,o1 预览版 21%,满血 o1 32%,今天的主角 o3,直接干到了 87.5%! 就说恐怖不恐怖!