Open AI传说中的新模型终于发布,其推理能力突飞猛进,不再需要担心大模型无法做题。该新模型代号为o1,并非GPT的延续,而是Open AI重新开启了一个新项目,专门用于提升推理能力。 在数学方面,2024年美国数学邀请赛中,之前GPT-4o的平均正确率为12%,而新模型o1的首次尝试平均正确率达到了74%。 如果使用集体决策和高级评分策略,o1的正确率甚至可以达到93%。这一成绩不仅让o1跻身全美前500名优秀学生之列,还超过了美国数学奥林匹克竞赛的入选分数线。 在物理、化学和生物方面,o1也表现出色。在GPQA Diamond这项专门评估物理、化学和生物等专业知识的测试中,o1不仅完成了测试,还超越了部分博士学位的人类专家。 除此之外大模型在之前就擅长的编程方面也有所突破。在国际信息学奥林匹克竞赛中,在与人类参赛者相同的条件下,新模型o1获得了213分,位列参赛者的前50%。 如果放宽限制,每个问题的提交次数从50次提高到1万次,o1能拿到362.14的高分,直接超越了金牌的分数线。 o1之所以能补全大模型推理的短板,主要有两个方面。 一是AI界的“文艺复兴”,采用了之前已经证明实力的自博弈机制,这项机制最擅长的就是单点突破。这两年比较火的大模型属于“杂学家”,什么都会点,但什么都不精,而自博弈机制擅长垂直领域的单点突破。 二是新模型采用了链式思考机制,简单来说,之前的模型是用直觉回答问题,而o1给出的则是深思熟虑后的回答。用Open AI研究主管的话来说,就是模型在学习自己思考,而不是试图模仿人类的思维方式。 目前o1的缺点也很明显,首先是响应速度较慢,回答一个问题通常需要10~20秒,不过考虑到是在做题,慢点也能理解。缺点是目前还不能浏览网页、处理文件,也不支持多模态,不能输入图像和音频。并且在记忆力不好、幻觉严重和迷之自信方面,比传统GPT模型还要严重一些。最后一点就是成本高。 o1在数学、科学计算和编程上的巨大突破,不仅代表着更高的价值,也带来了更高的智能水平,而高智能的代价就是高成本。有内部人士估算,o1的算力消耗成本预计是GPT4的10倍以上,定价方面也相应提高。 目前o1包含两个模型,一个是更全面的o1-preview,另一个是效率高一些的o1-mini。o1-preview每100万个token的输入价格为15美元,输出价格为60美元,比GPT-4o高出3~4倍。 要知道很多科研级别的问题题干和答案都相当长,基本上博士生几道题下来100美元就花完了。 但如果o1真能解决高阶的科研问题,那这个性价比可以说是无敌的。