魔女团新闻

首页

OpenAIo3碾压式AI数学成绩遭质疑：既当选手又是裁判

IT之家 2025-01-20 08:01:25

IT之家1月20日消息，科技媒体TechCrunch昨日（1月19日）发布博文，报道称EpochAI因未及时披露OpenAI的资助而引发争议，其开发的数学基准测试FrontierMath的客观性受到质疑。

IT之家简要介绍下EpochAI组织，是主要由OpenPhilanthropy资助的非营利组织。该组织推出了FrontierMath基准测试，通过整合专家级数学问题，衡量和测试AI模型的数学能力。

OpenAI的o3模型在EpochAI的FrontierMath基准测试中，以碾压式优势傲视其它模型，准确率高达25%，而其他模型得分在2%左右。

EpochAI的一位承包商“Meemi”在LessWrong论坛上发帖称，许多FrontierMath的贡献者直到公开宣布时才知道OpenAI参与了该基准搭建。

Meemi写道：“沟通完全不透明。我认为EpochAI应该披露OpenAI的资助，承包商在选择是否参与基准测试工作时，应该获得关于其工作成果可能被用于能力提升的透明信息。”

六位参与FrontierMath基准测试设计的数学家表示，他们并不知道OpenAI拥有独家访问权限。如果事先知道，他们可能不会参与。

一些社交媒体用户担心，这种保密行为可能会损害FrontierMath作为客观基准的声誉。除了资助FrontierMath之外，OpenAI还可以访问该基准测试中的许多问题和解决方案——EpochAI在12月20日o3发布之前并未透露这一事实。

EpochAI副主任兼联合创始人之一TamayBesiroglu在回复Meemi的帖子时坚称，FrontierMath的完整性没有受到损害，但也承认EpochAI在未能更加透明方面“犯了一个错误”。

AI专家GaryMarcus质疑OpenAI的声明，将此事件与Theranos丑闻相提并论。IT之家注：该丑闻是由伊丽莎白・霍尔姆斯创立的血液检测公司Theranos的欺诈事件，该公司声称其技术只需几滴血就能进行数百项检测，但最后谎言被揭穿，公司最终倒闭，霍尔姆斯也被判犯有欺诈罪。

Besiroglu承认OpenAI可以访问FrontierMath的大部分问题和答案，但有一个“OpenAI未见过的保留数据集”用于验证模型的能力。

Besiroglu写道

我们被限制在o3发布前后才能披露合作关系，事后看来，我们应该更努力地争取尽快对基准测试贡献者保持透明。我们的数学家应该知道谁可以访问他们的工作。即使我们在合同上受到限制，我们也应该让与贡献者的透明度成为我们与OpenAI协议中不可协商的一部分。

0 阅读：3

IT之家

简介：爱科技，爱这里 - 前沿科技人气平台