遇到FrontierMath，LLM算是踢到铁板啦，数学正确率仅2%

大型语言模型（LLM）在数学领域的表现令人瞩目，它们在各种数学基准测试中屡次刷新纪录，让不少人对AI在数学领域的潜力刮目相看。

在这股热潮中，Epoch AI公司却背道而行，联合了60多位世界顶尖的数学家，共同研发出一套全新的数学推理测试——FrontierMath。这套测试旨在揭示LLM在复杂数学问题面前的真实水平。

令人震惊的是，当这些LLM面对FrontierMath的挑战时，它们的表现堪称“灾难性”。正确率竟然跌至2%以下，这一结果让不少人感到啼笑皆非，同时也对LLM在数学领域的实际应用能力产生了质疑。

在本次测验中，对六大领先模型进行了全面的考验，包括o1-mini、o1-preview、Claude 3.5 Sonnet、GPT-4o、Grok 2 Beta以及Gemini 1.5 Pro。即便是在享有额外思考时间（10,000个token）、Python访问权限以及实验运行能力的优势下，这些模型的成功率依旧未能突破2%。

这一成绩与它们在以往传统基准测试中的亮眼表现形成了鲜明对照。在过去，这些模型常常能够轻而易举地实现90%以上的高正确率。Epoch AI指出，现有的数学基准测试，如GSM8K和MATH，早已被LLM们“玩弄于股掌之间”，其高分的背后很大程度上是由于数据污染所致，LLM靠记忆旧题提高分数。而当面对FrontierMath的原创题目，终于展现了它们的真实水平。

魔女团新闻

遇到FrontierMath，LLM算是踢到铁板啦，数学正确率仅2%

智能真的很好说