没想到这么牛[赞]今天看到一条好消息,国外权威AI评测机构悄悄公布了一组数据,国内很多人可能没注意,但是在外网已经炸锅了。 阿里云旗下的Qwen2.5-Max模型在Chatbot上不仅成功超越备受瞩目的DeepSeek-V3,还以总分1332的成绩与OpenAI的明星模型o1-preview并列第7。 要知道Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前集成了190多种模型,堪称当今全球最权威、最核心的大模型竞技场。可以说,能够跻身该平台榜单前10的AI模型,无一不是国际上广受认可的前沿产品。 值得一提的是,之前国内发布的DeepSeek系列模型就引发了外国专家的广泛关注乃至一定程度的焦虑与担忧。最近Qwen2.5-Max入围Chatbot Arena榜单前10的事实,让中国AI大模型再次在国际上得到认可,也让西方绞尽脑汁阻碍我们相关技术发展的小心思,化为泡影。 如今,Qwen与DeepSeek等国产大模型并驾齐驱,大有后来居上、赶超国际AI模型的潜力。 这并非虚言,就拿Qwen2.5-Max举例,有权威评测指出,在逻辑性较强的数学和代码任务当中,Qwen2.5-Max的成绩都超过了OpenAI的o1-mini,它和满血版o1并列第一。某种程度来说,Qwen2.5-Max在代码能力上和满血o1进行PK的胜率可以达到69%。 此外,在复杂提示词任务的测评上Qwen2.5-Max也展示了与o1-preview旗鼓相当的能力,并且在多轮对话的处理上Qwen2.5-Max更是超越了后者。 在实际运用上,大家上Qwen Chat就可以免费用,外国很多亲身使用过Qwen的网友就很服气,表示Qwen的表现很稳定,他们中的一部分人甚至预言,Qwen很快就会取代硅谷的所有普通模型。 不得不说,中国AI技术正快速崛起,创新不断。除了DeepSeek受到国内外好评外,这次阿里云拿下国际榜单好成绩,就从侧面再次证明,西方技术垄断之路是狭隘而没有意义的,唯有携手共进,推动技术整体跃升,方是业界的共识与追求。
没想到这么牛[赞]今天看到一条好消息,国外权威AI评测机构悄悄公布了一组数据,国
黄教授
2025-02-06 13:03:06
0
阅读:275