微软和 OpenAI 的合作很成功,但显然微软不满足于此,他们一直在大模型领域里深挖细作,不断研发,持续推进。
今天微软宣布发布三款全新的 Phi-3.5 模型,以进一步巩固其在多语言和多模态 AI 领域的领先地位。
这三款新 Phi-3.5 模型包括参数为 38.2 亿的 Phi-3.5-mini-instruct、参数为 419 亿的 Phi-3.5-MoE-instruct 以及参数为 41.5 亿的 Phi-3.5-vision-instruct,分别设计用于基本/快速推理、更强大的推理和视觉(图像与视频分析)任务。
现在这三款模型均可供开发人员下载与使用,并可在 Hugging Face 平台上进行微调和自定义,这些模型采用了微软 MIT 许可证,允许无限制的商业使用和修改。
重要的是,这三款模型在许多第三方基准测试中都表现出了接近最先进模型的性能,甚至在某些情况下击败了包括谷歌的 Gemini 1.5 Flash、Meta 的 Llama 3.1,甚至 OpenAI 的 GPT-4o 在内的其他 AI 产品。
这样的性能优势,加上宽松的开源许可证,使得人们在社交网络 X 上对微软赞誉有加。
下面简单介绍一下这几款模型。
Phi-3.5 Mini Instruct:针对计算受限环境进行了优化
链接:https://huggingface.co/microsoft/Phi-3.5-mini-instruct
Phi-3.5 Mini Instruct 模型是一款轻量级 AI 模型,拥有 38 亿参数,专为指令遵循而设计,并支持 128k 的 Token 上下文长度。
这个模型非常适合在内存或计算资源受限的环境中执行需要强大推理能力的任务,包括代码生成、数学问题求解和逻辑推理等任务。
尽管体积小巧,Phi-3.5 Mini Instruct 模型在多语言和多轮对话任务中表现出色,并且明显优于其前代产品。
它在多个基准测试中的表现接近于最先进模型的水平,并在 RepoQA 基准测试(评估 “长上下文代码理解”)中超越了其他类似大小的模型,如 Llama-3.1-8B-instruct 和 Mistral-7B-instruct。
这款模型使用了 512 个 H100-80G GPU 在 10 天内训练了 3.4 万亿个 Token。
Phi-3.5 MoE:微软的 “专家混合” 模型
链接:https://huggingface.co/microsoft/Phi-3.5-MoE-instruct
Phi-3.5 MoE(专家混合)模型是微软首次推出此类模型,它将多个不同类型的模型组合为一个,每个模型专门处理不同任务。
这个模型采用了具有 420 亿活跃参数的架构,并支持 128k 的 Token 上下文长度,提供了可扩展的 AI 性能以满足苛刻的应用需求。但是,根据 Hugging Face 的文档,它仅使用 66 亿活跃参数进行操作。
Phi-3.5 MoE 旨在完成各种推理任务,在代码、数学和多语言理解方面表现出色,通常在特定基准测试中超越更大的模型,包括在 RepoQA 中的优异表现。
它还在 5-shot MMLU(大规模多任务语言理解)基准测试中,在 STEM、人文学科、社会科学等多个学科的不同层次上超越了 GPT-4o mini。
MoE 模型独特的架构使其能够在处理复杂 AI 任务的同时保持效率,并能够应对多语言任务。
这款模型采用专家混合架构,使用了 512 个 H100-80G GPU 在 23 天内训练了 4.9 万亿个 Token。
Phi-3.5 Vision Instruct:先进的多模态推理模型
链接:https://huggingface.co/microsoft/Phi-3.5-vision-instruct
Phi-3.5 Vision Instruct 模型集成了文本和图像处理功能。
这款多模态模型特别适合执行诸如图像理解、光学字符识别、图表和表格理解以及视频总结等任务。
与 Phi-3.5 系列的其他模型一样,Vision Instruct 支持 128k 的 Token 上下文长度,使其能够处理复杂的多帧视觉任务。
微软指出,这一模型是通过使用合成数据集和筛选后的公开数据集进行训练的,重点是高质量、推理密集的数据。
这款模型使用了 256 个 A100-80G GPU 在 6 天内训练了 5000 亿个 Token。
MIT 许可证下的开源
这三款 Phi-3.5 模型均在 MIT 许可证下发布,体现了微软支持开源社区的承诺。
开发人员可自由使用、修改、合并、发布、分发、再许可或出售这些软件。
该许可证还包括免责声明,软件是 “按原样” 提供的,不提供任何形式的保证。微软及其他版权所有者不对因使用该软件而引发的任何索赔、损害或其他责任承担责任。
微软发布的 Phi-3.5 系列代表了多语言和多模态 AI 开发的重大进步。
通过将这些模型以开源许可证发布,微软使开发者能够将高级的 AI 能力集成到他们的应用程序中,推动商业和研究领域的创新。