微软新Phi3.5LLM在基准测试中优于Meta和谷歌,惜败GPT...

智能真的很好说 2024-08-23 16:16:51

微软更新的模型系列在几个基准测试中优于Meta和谷歌的竞争对手模型,仅落后于OpenAI的GPT-4o-mini。

微软在Hugging Face上发布了一套新的、更新的Phi小语言模型,它声称其性能优于包括Meta和Google在内的竞争对手模型提供商的类似产品。

在4月发布的Phi 3平台更新中,云服务提供商在开放的MIT许可证下推出了三款Phi 3.5型号——Phi 3.5-MoE-instruct、Phi 3.5-mini-instruct和Phi 3.5-vision-instruct。

据该公司称,Phi-3.5-MoE-instruct模型是一个轻量级模型,基于用于Phi-3合成数据和过滤的公开文档的数据集,重点是非常高质量、推理密集的数据。

该公司表示,该模型提供多语言支持,并具有128K上下文长度(以代币为单位),并补充说,该模型旨在用于多种语言的商业和研究用途。

“该模型为通用的人工智能系统和应用程序提供了用途,这些系统和应用程序需要:内存/计算受限环境、延迟约束场景和强大的推理(特别是代码、数学和逻辑),”该模型在Hugging Face read上的描述。

“我们的模型旨在加速对语言和多模态模型的研究,用作生成性人工智能驱动功能的构建块,”描述进一步写道。

在关于推理和多语言技能的基准评级模型中,如BigBench、MMLU和ARC Challenge,MoE-instruct模型尽管参数比竞争对手少(66亿)表现得优于Llama 3.1-8B-instruct、Gemma 2-9b-It和Gemini 1.5-Flash。然而,它无法与OpenAI的GPT-4o-mini-2024-07-18(聊天)的性能相匹配。

然而,该公司指出,该模型仍然从根本上受到某些任务的规模的限制。

“该模型根本没有能力存储太多的事实知识,因此,用户可能会遇到事实不正确性,”它说,并补充说,这种弱点可以通过用搜索引擎增强Phi-3.5来解决,特别是在RAG设置下使用该模型时。

微软使用512个Nvidia H100-80G GPU在23天内用4.9万亿个令牌作为训练数据来训练该模型。

同样,128K的token上下文长度支持的迷你指令模型也比大多数竞争对手表现得更好,但落后于OpenAI最新的4o迷你聊天模型。

该公司表示,迷你指令模型是基于用户反馈的2024年6月指令调谐的Phi-3 Mini版本的更新,并补充说,它使用了额外的培训后数据,从而在多语言、多圈对话质量和推理能力方面取得了重大进步。

迷你具有38亿个参数,是一个仅密集的解码器变压器模型,使用与Phi-3 Mini相同的令牌器,在10天内在3.4万亿个令牌上对512个Nvidia H100-80G GPU进行了训练。

此外,该公司表示,第三款新型号Phi 3.5-vision-instruct也优于竞争对手,尽管参数较少,包括Claude-3.5-Sonnet和GPT-4o-mini。

该模型具有42亿参数,包含图像编码器、连接器、投影仪和Phi-3-Mini语言模型,支持128K令牌,并在6天内在5000亿个视觉和文本令牌上接受了256个Nvidia A100-80G GPU的培训。

0 阅读:0