微软研究院发布了最强小参数模型——Phi-4。
微软发布Phi-4:小参数模型的强大性能
2023年12月18日,紫光晓通的尚志远和群联电子的林纬博士将进行关于NVIDIA RTX 5880 Ada的直播讲解,尤其聚焦于如何利用该技术部署私有化大模型。同时,微软研究院推出了最新的小参数模型Phi-4,展现出其卓越的性能。
1. Phi-4的显著优势
Phi-4是微软Phi系列模型的第五代,参数仅有140亿,但在GPQA研究生水平和MATH数学基准中分别达到了56.1和80.4的高分,超越了GPT-4o及其他同类模型。这表明小参数模型在高质量数据和创新训练方法的支持下,能够在性能上与大参数模型相媲美。
2. 高质量合成数据的关键作用
Phi-4的成功在于其使用了高质量的合成训练数据。与传统模型依赖真实文本数据不同,Phi-4采用了种子策划、多Agent提示、自我修订工作流等方法,生成了更加多样化和高质量的训练数据。这种方法有效降低了噪声和偏见的影响,提升了模型的学习效果。
3. 创新训练方法的实施
为了提升Phi-4在不同任务上的表现,研究团队采用了创新的训练方法,特别是在长上下文理解能力上进行了优化。通过增加rope位置编码的基础频率以及调整学习率,Phi-4在复杂信息处理上表现优异。此外,结合人工标注和自动构建的强化学习数据,进一步提升了模型的响应准确性和适应性。
4. 领域特定的强化训练
Phi-4在特定领域的表现也得到了增强。以STEM领域为例,采用Math-Shepherd工具进行验证,显著提高了数学题目的解答准确率。在编程任务中,通过分析开源项目中的代码片段,提升了执行效率和准确性。
5. 未来展望
随着Phi-4的发布,微软在小参数模型的研究上取得了突破,这不仅为AI领域带来了新的思路,也为相关技术的应用和发展开辟了新的可能性。值得注意的是,Phi系列模型的核心人物Sébastien Bubeck已离开微软加入OpenAI,未来将如何影响该领域仍值得关注。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。