大型语言模型(LLM)在数学领域的表现令人瞩目,它们在各种数学基准测试中屡次刷新纪录,让不少人对AI在数学领域的潜力刮目相看。
在这股热潮中,Epoch AI公司却背道而行,联合了60多位世界顶尖的数学家,共同研发出一套全新的数学推理测试——FrontierMath。这套测试旨在揭示LLM在复杂数学问题面前的真实水平。
令人震惊的是,当这些LLM面对FrontierMath的挑战时,它们的表现堪称“灾难性”。正确率竟然跌至2%以下,这一结果让不少人感到啼笑皆非,同时也对LLM在数学领域的实际应用能力产生了质疑。
在本次测验中,对六大领先模型进行了全面的考验,包括o1-mini、o1-preview、Claude 3.5 Sonnet、GPT-4o、Grok 2 Beta以及Gemini 1.5 Pro。即便是在享有额外思考时间(10,000个token)、Python访问权限以及实验运行能力的优势下,这些模型的成功率依旧未能突破2%。
这一成绩与它们在以往传统基准测试中的亮眼表现形成了鲜明对照。在过去,这些模型常常能够轻而易举地实现90%以上的高正确率。Epoch AI指出,现有的数学基准测试,如GSM8K和MATH,早已被LLM们“玩弄于股掌之间”,其高分的背后很大程度上是由于数据污染所致,LLM靠记忆旧题提高分数。而当面对FrontierMath的原创题目,终于展现了它们的真实水平。