清华系2B模型杀出,性能吊打LLaMA-13B,170万tokens仅需1块钱!

AIGC动态11个月前发布 AI前线
16 0 0

清华系2B模型杀出,性能吊打LLaMA-13B,170万tokens仅需1块钱!

AIGC动态欢迎阅读

原标题:清华系2B模型杀出,性能吊打LLaMA-13B,170万tokens仅需1块钱!
关键字:模型,李白,解读,报告,知乎
文章来源:AI前线
内容字数:10884字

内容摘要:


作者| 褚杏娟
2 月 1 日,面壁智能与清华大学自然语言处理实验室共同开源了系列端侧语言大模型 MiniCPM,主体语言模型 MiniCPM-2B 仅有 24 亿(2.4B)的非词嵌入参数量。
在综合性榜单上与 Mistral-7B 相近,在中文、数学、代码能力表现更优,整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。
具体开源模型包括:
基于 MiniCPM-2B 的指令微调与人类偏好对齐的 MiniCPM-2B-SFT/DPO。
基于 MiniCPM-2B 的多模态模型 MiniCPM-V,能力超越基于 Phi-2 的同参数级别多模态模型 。
MiniCPM-2B-SFT/DPO 的 Int4 量化版 MiniCPM-2B-SFT/DPO-Int4。
基于 MLC-LLM、LLMFarm 开发的 MiniCPM 手机端程序,文本及多模态模型均可在手机端进行推理。开源地址(内含技术报告):
MiniCPM GitHub:https://github.com/OpenBMB/MiniCPMOmniLMM
GitHub:https://github.


原文链接:清华系2B模型杀出,性能吊打LLaMA-13B,170万tokens仅需1块钱!

联系作者

文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供AI领域技术资讯、一线业界实践案例、搜罗整理业界技术分享干货、AI论文解读。每周一节技术分享公开课,助力你全面拥抱人工智能技术。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...