【如何评价AI到底强多少？】OpenAI推出最新的测试方法SWE-Lancer，

汧以看商业 2025-02-20 00:28:47

【如何评价AI到底强多少？】

OpenAI推出最新的测试方法SWE-Lancer，用实际Upwork上的软体外包任务，总价值100万美元，窥探不同模型的AI到底能实际赚到多少钱。

AI任务与价值挂钩：SWE-Lancer的创新点位于它首先将AI模型的表现与真实价值挂钩。这些任务报告独立工程任务和管理任务的类别：独立工程任务范围从50美元的简单错误修复到3.2万美元的新功能开发；管理任务则要求模型在多个技术提示中选择最佳方案。独立工程任务使用专业工程师开发的最终测试进行评估，管理任务则与原始工程经理的选择进行比对。

研究结果：AI还不能取代，但已经从人类的动手能力抢下40%收入评估结果显示，即使是最先进的语言模型在处理大多数任务时仍然面临挑战。表现最好的Claude 3.5 Sonnet在SWE-Lancer Diamond测试集中获得了26.2%的独立工程任务通过率和44.9%的管理任务通过率，总共获得208,050美元。在完整的集中测试中，该模型获得了超过40万美元，但距离100万美元的总奖金增加了显着差距。这个测试有趣的地方是，有推理的o1还是给Claude 3.5 Sonnet.

0 阅读：7

猜你喜欢

回顾周三舆情热度：①算力/云服务-DeepSeek作为开源AI大模

回顾周三舆情热度：①算力/云服务-DeepSeek作为开源AI大模

【4点赞】

ai deepseek 云服务 meta 人工智能

中国AI芯片绝地反击战！距离芯片断供大限只剩15天，中国科技圈却上演惊天逆转

中国AI芯片绝地反击战！距离芯片断供大限只剩15天，中国科技圈却上演惊天逆转

【7评论】【43点赞】

ai芯片英伟达 it芯片人工智能

未来的工作，那些可能被AI取代，哪些可能得到AI协助却不会被AI替代，哪些AI取

未来的工作，那些可能被AI取代，哪些可能得到AI协助却不会被AI替代，哪些AI取

ai 人工智能

月薪五千，买一套一百万的房子，看下Ai软件的评价

月薪五千，买一套一百万的房子，看下Ai软件的评价

【5评论】【5点赞】

软件 ai 诺基亚人工智能

昨天晚上，我老公拿着手机让孩子给他下最新的那个AI工具Deepseek，我问他

昨天晚上，我老公拿着手机让孩子给他下最新的那个AI工具Deepseek，我问他

【1评论】

ai deepseek 豆包人工智能

马斯克号称最聪明的AiGrok3被网友的几根筷子给“绕”进去了。网友询问Gr

马斯克号称最聪明的AiGrok3被网友的几根筷子给“绕”进去了。网友询问Gr

【105评论】【39点赞】

ai grok 伊隆·马斯克人工智能

“ai永远也解决不了的问题！”

“ai永远也解决不了的问题！”

ai

AI+消费概念股：谁在科技江湖“称王称霸”？一、芯片界的“硬核玩家”——端侧AI

AI+消费概念股：谁在科技江湖“称王称霸”？一、芯片界的“硬核玩家”——端侧AI

【32点赞】

芯片 ai it芯片人工智能

汧以看商业

感谢大家的关注

作者最新文章

1

华为鸿蒙智行的尊界S800黑科技正式发布！华为常务董事、终端BG董事长、智能汽车

2

转：发现一个现象，很多人对贵人有误解，觉得要么是富甲一方的人，要么是在社会上有权

3

吃饺子！

4

S基金站“C位”当下的S基金，正经历从边缘到主力的角色蜕变。政策端的持续发力（如

5

为什么非要赋予人生一个意义？需要找寻人生意义？这本身也许就没有意义。。。

6

“人们的潜意识指引着人生。”世间的万事万物，其实都遵循着吸引力法则。你若是特别想

7

【如何评价AI到底强多少？】OpenAI推出最新的测试方法SWE-Lancer，

8

高盛今日精选30家中国AI上市公司

9

为什么是任正非、王传福？未来两三年，最终有机会握住AI入口的台前大佬，就是坐在第

10

邓公是怎么向前看的？邓公讲“向前看”，“不走回头路”，包括他的“不争论”，都是他

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

财经TOP

1

刚才复牌人工智能板块时，发现一只DeepSeek概念股的日k线真是漂亮，犹如一架

2

DeepSeek给出的财富自由标准

3

徐福记成时代眼泪了吗90后、00后准备年货，压根没把糖果列为必买清单吧。以前过

4

DeepSeek没有上车的，可以准备弯道超车炒两会了股票

5

高盛选了30支中国AI股。

6

deepseek给出的财富自由标准

7

现在的黄金已处于失控边缘，说真的，老百姓手里的实体黄金已非常少，很多人已提前抛售

8

大A开年最牛的票已经诞生了！20cm5连板，无人能敌！大A蛇年到现在一共只有

9

DeepSeek还是很懂A股散户的…

10

韩红基金会2023年账单公开，56位领薪员工共获604.219778万元薪酬。秘

财经最新文章

1

宇树机器人爆火，相关核心概念公司梳理大全！一、实锤合作1.长盛轴承：签订合作供

2

1.工商银行：从3.26元涨到7.08元2.建设银行：从4.30元涨到8.78

3

这个股票叫了一个好名字东方集团从20元一路下跌到了2元多点可是，不敢买生怕继续下

4

别人恐惧我贪婪，全仓干进去了龙头就是龙头，坚决看多，不到60坚

5

马云在这次民营企业座谈会期间，接受媒体采访，他说:美国总人囗才3亿多，却能拉动美

6

高盛选了30支中国AI股。

7

陈晓陈妍希离婚意料之中！陈妍希父亲去世，陈晓不闻不问未参加丧礼，八年婚变早有

8

大伙肯定都记得，2010年农业银行刚上市那会，股价每股才2.8元。有位朋友，一下

9

Deepseek预测的2025年的20大妖股名单……

10

太疯狂了！A股开年最强最热门股，光线传媒今天历史大分歧，开盘仅5分钟就一度天地板