手机可跑，3.8B参数量超越GPT-3.5！微软发布Phi-3技术报告：秘密武器是洗干净数据

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：手机可跑，3.8B参数量超越GPT-3.5！微软发布Phi-3技术报告：秘密武器是洗干净数据
关键字：模型,数据,参数,性能,语言
文章来源：新智元
内容字数：11723字

内容摘要：

新智元报道编辑：LRS
【新智元导读】Scaling Laws再次失效？微软最新的phi-3-mini模型，只用3.8B模型就击败了一众7B老大哥，用iPhone14每秒可生成12个tokens！过去几年，借助Scaling Laws的魔力，预训练的数据集不断增大，使得大模型的参数量也可以越做越大，从五年前的数十亿参数已经成长到今天的万亿级，在各个自然语言处理任务上的性能也越来越好。
但Scaling Laws的魔法只能施加在「固定」的数据源上，即模型如果能够以一种新的方式与数据进行交互的话，就能实现「小模型战胜大模型」的效果。
微软此前关于Phi系列模型的研究工作，已经证实了「基于LLM的web数据过滤」和「LLM合成数据」的结合，使得2.7B参数量的Phi-2可以匹敌25倍参数量大模型的性能。
最近，微软再次升级了Phi-3系列模型，最小尺寸的phi-3-mini（3.8B参数量）在更大、更干净的数据集（包含3.3T个tokens）上进行训练，在各大公开的学术基准和内部测试中，实现了与Mixtral 8x7B和GPT-3.5等大尺寸模型的性能。论文链接：https://arxiv

原文链接：手机可跑，3.8B参数量超越GPT-3.5！微软发布Phi-3技术报告：秘密武器是洗干净数据