微软更新的模型系列在几个基准测试中优于Meta和谷歌的竞争对手模型,仅落后于OpenAI的GPT-4o-mini。
微软在Hugging Face上发布了一套新的、更新的Phi小语言模型,它声称其性能优于包括Meta和Google在内的竞争对手模型提供商的类似产品。
在4月发布的Phi 3平台更新中,云服务提供商在开放的MIT许可证下推出了三款Phi 3.5型号——Phi 3.5-MoE-instruct、Phi 3.5-mini-instruct和Phi 3.5-vision-instruct。
据该公司称,Phi-3.5-MoE-instruct模型是一个轻量级模型,基于用于Phi-3合成数据和过滤的公开文档的数据集,重点是非常高质量、推理密集的数据。
该公司表示,该模型提供多语言支持,并具有128K上下文长度(以代币为单位),并补充说,该模型旨在用于多种语言的商业和研究用途。
“该模型为通用的人工智能系统和应用程序提供了用途,这些系统和应用程序需要:内存/计算受限环境、延迟约束场景和强大的推理(特别是代码、数学和逻辑),”该模型在Hugging Face read上的描述。
“我们的模型旨在加速对语言和多模态模型的研究,用作生成性人工智能驱动功能的构建块,”描述进一步写道。
在关于推理和多语言技能的基准评级模型中,如BigBench、MMLU和ARC Challenge,MoE-instruct模型尽管参数比竞争对手少(66亿)表现得优于Llama 3.1-8B-instruct、Gemma 2-9b-It和Gemini 1.5-Flash。然而,它无法与OpenAI的GPT-4o-mini-2024-07-18(聊天)的性能相匹配。
然而,该公司指出,该模型仍然从根本上受到某些任务的规模的限制。
“该模型根本没有能力存储太多的事实知识,因此,用户可能会遇到事实不正确性,”它说,并补充说,这种弱点可以通过用搜索引擎增强Phi-3.5来解决,特别是在RAG设置下使用该模型时。
微软使用512个Nvidia H100-80G GPU在23天内用4.9万亿个令牌作为训练数据来训练该模型。
同样,128K的token上下文长度支持的迷你指令模型也比大多数竞争对手表现得更好,但落后于OpenAI最新的4o迷你聊天模型。
该公司表示,迷你指令模型是基于用户反馈的2024年6月指令调谐的Phi-3 Mini版本的更新,并补充说,它使用了额外的培训后数据,从而在多语言、多圈对话质量和推理能力方面取得了重大进步。
迷你具有38亿个参数,是一个仅密集的解码器变压器模型,使用与Phi-3 Mini相同的令牌器,在10天内在3.4万亿个令牌上对512个Nvidia H100-80G GPU进行了训练。
此外,该公司表示,第三款新型号Phi 3.5-vision-instruct也优于竞争对手,尽管参数较少,包括Claude-3.5-Sonnet和GPT-4o-mini。
该模型具有42亿参数,包含图像编码器、连接器、投影仪和Phi-3-Mini语言模型,支持128K令牌,并在6天内在5000亿个视觉和文本令牌上接受了256个Nvidia A100-80G GPU的培训。