原标题:微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队
文章来源:新智元
内容字数:7329字
微软Phi-4系列模型:小而强大,多模态赋能未来
微软近日发布了Phi-4系列的两个新成员:Phi-4-multimodal和Phi-4-mini,这两个小巧却功能强大的模型,标志着微软在人工智能领域的又一重大突破。
Phi-4-multimodal:首个多模态模型,性能卓越
Phi-4-multimodal是微软首个集语音、视觉和文本多模态于一体的模型,参数量仅为56亿。它采用混合LoRA技术,在统一的表示空间内处理多种模态信息,实现了高效、低延迟的推理。其性能在多个基准测试中超越了部分大型开源模型,例如在语音识别方面超过了WhisperV3和SeamlessM4T-v2-Large,在视觉推理方面也表现出色,甚至在某些任务上超过了Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet。
该模型的应用场景广泛,例如可以理解图像并生成Markdown表格,进行实时语言翻译、照片和视频分析等。其优异的性能和低资源消耗使其成为嵌入智能设备和边缘计算平台的理想选择。
Phi-4-mini:参数精简,性能强劲
Phi-4-mini拥有38亿参数,是一个高效的解码器模型,支持128K token上下文,并在推理、数学、编程等任务中超越了参数更大的模型。在Math-500数学测试中,它取得了90.4分的惊人成绩,与DeepSeek R1、o1-mini不相上下。其强大的函数调用功能使其能够访问外部知识和功能,进一步提升了其在基于文本任务中的表现。
Phi-4-mini的低资源消耗和高性能使其非常适合在计算资源受限的环境中使用,例如嵌入手机、汽车等设备中。
应用场景广泛,赋能各行各业
Phi-4系列模型的低资源消耗和高性能使其在多个领域具有广泛的应用前景。例如,在手机领域,可以集成到手机中,提供实时语言翻译、图像分析等功能;在汽车领域,可以用于车载辅助系统,提高驾驶安全性;在金融领域,可以用于自动化金融计算、生成报告等。
微软的持续创新和技术实力
Phi-4系列模型的发布,离不开微软在人工智能领域持续的研发投入和技术积累。微软副总裁Weizhu Chen及其团队在LoRA等技术的研发方面做出了突出贡献,为Phi系列模型的成功奠定了坚实的基础。这些创新技术不仅推动了微软自身产品的进步,也为整个行业的发展做出了贡献。
总而言之,Phi-4-multimodal和Phi-4-mini的推出,展现了微软在小模型领域的技术实力,也为人工智能的未来发展提供了新的可能性。它们高效、强大的性能,以及广泛的应用场景,将为各行各业带来变革性的影响。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。