小模型站起来了，浏览器里跑出SOTA，抱抱脸：快逃，合成数据不是未来

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：小模型站起来了，浏览器里跑出SOTA，抱抱脸：快逃，合成数据不是未来
关键字：模型,数据,团队,性能,微软
文章来源：量子位
内容字数：0字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAI浏览器里直接能跑的SOTA小模型来了，分别在2亿、5亿和20亿级别获胜，抱抱脸出品。
秘诀只有两个：
狠狠地过滤数据
在高度过滤的数据集上狠狠地训练
抱抱脸首席科学家Thomas Wolf，总结团队在开发小模型时的经验，抛出新观点，引起业界关注：
合成数据目前只在特定领域有用，网络是如此之大和多样化，真实数据的潜力还没完全发挥。
目前360M模型版本已发布Demo，在线可玩（注意流量）。
在浏览器里调用本地GPU运行，连模型权重带网页前端UI，400MB搞定。
严格过滤网络数据，性能直线上升针对微软Phi系列小模型，声称使用了一半合成数据，效果很好，但不公开数据。
开源界扛把子抱抱脸看不下去了：
造一个对标的大型合成数据集，开源它。
而且，团队隐隐暗示了，此举也有检验微软在测试集上刷榜的传闻，到底有没有这回事的考虑。
抱抱脸使用当时最好的开源模型Mixtral-8-7B构造了25B合成数据。
训练出来的模型效果还不错，但仍然在某种程度上低于Phi-1和Phi-1.5的水平。
他们尝试了让大模型在中学水平上解释各种主题，最终只有在MMLU

原文链接：小模型站起来了，浏览器里跑出SOTA，抱抱脸：快逃，合成数据不是未来