CPM-Bee大模型官网,百亿参数的开源中英文双语基座大模型
CPM-Bee是一个开源的双语预训练语言模型,参数量为10B,拥有十余种原生能力和强大的通用语言能力,并支持结构化输入和输出。它是CPM-Live直播训练过程中的第二个里程碑。训练过程是低成本和环境友好的。我们将发布各种压缩版本以适应不同的硬件配置。CPM-Bee采用了开放的许可协议,发布后的模型和代码将完全开放。
CPM-Bee大模型官网: https://live.openbmb.org/models/bee
Github地址: https://github.com/OpenBMB/CPM-Bee
Hugging Face地址: https://huggingface.co/openbmb/cpm-bee-10b
➤ CPM-Bee商用申请通道 发送申请邮件至 cpm@modelbest.cn 获取授权证书
自OpenBMB开源社区成立以来,我们就坚定不移地践行“让大模型飞入千家万户”的理念,开发模型全流程加速系统以高效支持大模型的预训练、微调、应用和推理,并发起 百亿大模型训练直播项目CPM-Live。
终于!CPM-Live 第二阶段的进度条终于拉到了100%,我们迎来了CPM-Live第二个里程碑:CPM-Bee 开源发布!
✨ 模型介绍
CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型,也是CPM-Live训练的第二个里程碑。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。
- 👐 开源可商用:OpenBMB始终秉承“让大模型飞入千家万户”的开源精神,CPM-Bee基座模型将完全开源并且可商用,以推动大模型领域的发展。我们鼓励全球范围内的科研机构、企业和个人开发者在遵守开源许可协议的前提下,自由地在CPM-Bee基座模型上进行创新。
- 💫 中英双语性能优异: CPM-Bee基座模型在预训练语料上进行了严格的筛选和配比,同时在中英双语上具有亮眼表现,具体可参见评测任务和结果。
- 📖 超大规模高质量语料: CPM-Bee基座模型在超万亿语料进行训练,是开源社区内经过语料最多的模型之一。同时,我们对预训练语料进行了严格的筛选、清洗和后处理以确保质量。
OpenBMB大模型系统生态支持: OpenBMB大模型系统在高性能预训练、适配、压缩、部署、工具开发了一系列工具,CPM-Bee基座模型将配套所有的工具脚本,高效支持开发者进行进阶使用。- 🔨 对话和工具使用能力: 结合OpenBMB在指令微调和工具学习的探索,我们在CPM-Bee基座模型的基础上进行微调,训练出了具有强大对话和工具使用能力的实例模型,API和内测将于近期开放。
Read this in English.
说明:CPM-Bee是一个基座模型,即从零开始通过预训练得来。我们鼓励用户在自己的场景和数据上适配/微调/对齐后再进行使用。例如,WebCPM 以CPM-Bee为基座,在人类网络检索的序列化数据上进行适配,获得了复杂问答和上网检索的能力。后续我们将会发布更多在CPM-Bee基座模型基础上适配的模型。
本仓库主要提供 CPM-Bee 基座模型
数据统计
数据评估
本站OpenI提供的CPM-Bee都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由OpenI实际控制,在2023年 6月 15日 下午5:17收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,OpenI不承担任何责任。