9月2日,SuperCLUE发布了《中文大模型基准测评2024年8月报告》,其中,腾讯混元大模型凭借在多个关键任务中的出色表现,拿下了国内第一的位置。这个消息在业界引起了不小的轰动,因为腾讯混元不仅在国内榜单上脱颖而出,还展现出了超越其他国产模型的显著进步。
根据SuperCLUE的报告,腾讯混元在11个能力项中,8项核心任务均位居国内榜首。报告称:“腾讯混元展现了强大的整体实力,是一个非常有竞争力的通用大模型。”这次测评的是腾讯混元的新一代大语言模型预览版(Turbo-Preview),该模型采用了创新的混合专家模型(MoE)结构,通过自主研发,实现了从训练数据、模型架构到软硬件体系的全链路优化。结果不仅提升了模型性能,还有效降低了推理成本,进一步扩大了应用前景。
SuperCLUE作为独立的第三方测评机构,这次8月报告主要集中在通用能力的测评上。测试方案分为理科、文科和Hard三大维度。理科任务测试模型的计算、逻辑推理和代码能力;文科任务涵盖知识百科、语言理解、长文本生成与创作等多个领域;而Hard任务则更加考验模型在复杂指令遵循和高阶推理上的表现。在这些测试中,腾讯混元在理科和文科任务上均拿下了第一,Hard任务上也不遑多让,获得了74.33分,成为国内唯一突破70分的模型,与ChatGPT-4o的差距微乎其微。
更值得一提的是,随着大模型行业的快速发展,腾讯混元等国产大模型的进化速度也在不断加快。测评数据显示,从2023年5月到2024年8月,国内领先模型与国际顶尖模型的差距已从30.12%缩小至1.29%,几乎只有1分的差距,这标志着国产大模型在中文领域的通用能力上正在迅速追赶国际水平。
自2023年9月正式亮相以来,腾讯混元通过率先在国内采用MoE结构,逐步扩展至万亿参数规模,整体性能持续升级。除了在通用能力和文本生成方面表现出色外,腾讯混元在图像生成、视频生成等多模态能力上也展现了卓越的潜力。在SuperCLUE-V发布的中文多模态大模型榜单中,腾讯混元凭借其多模态理解的优秀表现,稳居国内榜首,确立了其在多模态领域的领先地位。
随着模型能力的逐步提升,腾讯混元大模型正在积极推进商业化应用。目前,腾讯内部已有近700个业务和场景接入了混元模型,包括腾讯元宝、腾讯云、QQ、微信读书等。这些应用场景不仅展现了模型的广泛适用性,也为企业提供了高效、优质、低成本的AI解决方案。
腾讯云上,混元大模型已提供了多种尺寸和版本的模型服务,面向企业和个人开发者全面开放。通过API、专属模型和精调模型等方式,开发者可以灵活接入并使用这些服务。基于多年产业互联网的深耕经验,腾讯云还联合行业头部企业,推出了超过50个行业解决方案,帮助各类企业更高效地创建和部署AI应用。
腾讯混元大模型不仅巩固了其在国内的领先地位,还进一步缩小了与国际顶尖模型的差距,为国产AI技术在全球舞台上的崛起奠定了坚实基础。#国产大模型排行#