进击的 SLM。
原标题:微软Phi-4家族新增两位成员,5.6B多模态单任务超GPT-4o,3.8B小模型媲美千问7B
文章来源:机器之心
内容字数:7888字
微软发布Phi-4模型家族:小而美的大模型新标杆
近日,微软正式发布了Phi-4模型家族,包括Phi-4-multimodal(多模态模型)和Phi-4-mini(语言模型),在“小而美”的道路上取得了显著进展。与动辄百亿、千亿参数的大模型不同,Phi-4家族专注于在较小的参数量下实现卓越性能,为手机、PC和汽车等设备上的应用提供更轻量、更高效的解决方案。
1. Phi-4-multimodal:多模态融合的强大能力
Phi-4-multimodal是一个多模态模型,整合了文本、视觉和语音/音频输入模态。它采用创新的“Mixture of LoRA”技术,利用LoRA适配器和特定模态路由器,实现多种推理模式的无干扰结合。即使语音/音频模态的LoRA组件只有46亿参数,它也在OpenASR排行榜上排名第一。该模型在各种任务中表现优于大型视觉-语言模型和语音-语言模型,展现出强大的语音识别、翻译、摘要、音频理解和图像分析能力。
2. Phi-4-mini:高效能的小型语言模型
Phi-4-mini拥有38亿参数,在高质量网络和合成数据上进行训练。它显著优于近期类似规模的开源模型,在数学和编码任务上甚至与规模更大的模型不相上下。这得益于精心设计的合成数据配方,以及诸如分组查询注意力机制(GQA)和输入/输出嵌入绑定技术等“省内存”技巧。Phi-4-mini的词汇量扩大到20万,支持更广泛的多语言应用,并支持更长的上下文长度。
3. 模型架构与训练数据
两个模型都使用tokenizer o200k base tiktoken,词汇量为200,064个。Phi-4-mini由32层Transformer组成,Phi-4-multimodal则采用“Mixture of LoRA”技术,通过整合特定模态的LoRAs来实现多模态功能,同时完全冻结基础语言模型。Phi-4-mini的训练数据经过严格筛选,加入了针对性的数学和编程训练数据,并通过调整数据混合比例来提升推理能力。Phi-4-multimodal的预训练阶段则使用了丰富多样的视觉-语言和语音数据。
4. 性能评估与应用
Phi-4-multimodal在多个基准测试中表现出色,在语音相关任务中优于专业模型,在视觉任务中也展现出强大的推理和逻辑能力。Phi-4-mini则在推理、数学、编程等任务上超越了更大的模型,并可以通过函数调用与外部知识和工具无缝集成,构建可扩展的智能体系统,例如智能家居助手。
总而言之,微软Phi-4模型家族的发布,展现了“小而美”模型在性能和效率上的巨大潜力,为人工智能应用带来了更多可能性。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台