微软来大招:手机部署堪比GPT3.5高性能大模型!

微软来大招:手机部署堪比GPT3.5高性能大模型!

AIGC动态欢迎阅读

原标题:微软来大招:手机部署堪比GPT3.5高性能大模型
关键字:模型,基准,微软,数据,测试
文章来源:夕小瑶科技说
内容字数:4706字

内容摘要:


夕小瑶科技说 原创作者 | 任同学
上周 LLaMa3 算是把关注度拉爆了,这才过了几天,微软已经宣布自己的 Phi-3-mini (3.8B) 模型可以媲美 Mixtral 8x7B 和 GPT-3.5 的性能了。
▲图1. Twitter:@haouarin一些直观的数据供参考:
Phi-3-mini 在 3.3T token 上进行训练,整体性能与 Mixtral 8x7B 和 GPT-3.5 相当,超越 Llama-3-instruct8b,而Llama-3在15T token上训练,这意味着 Phi-3 数据利用率提高了约4倍;
将 Phi-3-mini 模型拓展到 7B (Phi-3-small) 和 14B (Phi-3-medium) 大小,在 4.8T token 上进行训练,两者都比 phi-3-mini 能力更强,例如,MMLU 基准上分别为 75% 和 78%,MT 基准上为 8.7 和 8.9。
面对这样的结果,网友们纷纷表示不敢置信:
Meta 发布 Llama3 不到一周,难以置信微软这么快就发布了 Phi-3,而且看起来很棒!
与此同时,Phi-3-mi


原文链接:微软来大招:手机部署堪比GPT3.5高性能大模型!

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...