国产AI大语言模型参加公务员考试,腾讯混元大模型表现倒数第一!   根据互联网上

我为科技狂鸭 2023-11-15 14:59:53

国产AI大语言模型参加公务员考试,腾讯混元大模型表现倒数第一!   根据互联网上流传的一份在线文档,网友将十几款国产AI大语言模型用于公务员考试,并且据此制作了排名。   考试所使用的题集是四海教育《2023下半年笔试套题冲刺班.一期行政职业能力测验(三)》,从前面的110道题中刨除了需要识图判断的71题、80题和83题,总共99道题。测试采用首次生成的答案,人工不参与干预、没有重新生成的机会(实际测试的时候,在第69题因为天工生成卡顿了两次,但又实在想看它的结果是什么,所以人工点了两次“继续生成")。   测试结果是,在排名前五的大模型中,百度文心一言4.0排名第二,字节跳动豆包排名第四(如果拥有识图功能,则应该可以排第三名),阿里通义千问排名第五,科大讯飞星火和腾讯混元表现相对靠后,智谱和百川都是知名AI创业公司。   实际上,在包括自然语言交流、跨语种翻译、内容创作、代码编写、联网搜索、数理逻辑和运算、图像识别和生成、语音识别和生成等很多方面,目前国内最能经得起用户这样那样“考验”的通用大语言模型,主要是百度文心大模型(文心一言)和字节跳动云雀大模型(豆包)。   国产大模型与OpenAI GPT-4的差距多大?知乎上有个网友是这么说的,大意是:假如GPT-4是一定能考入清华和北大这两所顶级公办本科大学的大模型,那么文心一言和豆包是可以考入非双一流公办本科大学的大模型;其他国产大模型,有的勉强能考入民办本科大学,有的充其量就考入专科学校。

0 阅读:369