突破数据思维密度,仅4T数据让8B模型逼近GPT-4o-mini

突破数据思维密度,仅4T数据让8B模型逼近GPT-4o-mini

原标题:突破数据思维密度,仅4T数据让8B模型逼近GPT-4o-mini
文章来源:夕小瑶科技说
内容字数:4698字

上海人工智能实验室发布书生·浦语3.0:数据精炼框架提升大模型性能

本文总结了上海人工智能实验室发布的书生·浦语3.0 (InternLM3)大模型的关键特性及突破。该模型通过创新性的数据精炼框架,在有限的数据量下实现了显著的性能提升,并首次在通用模型中融合了常规对话和深度思考能力,为通用人工智能的“通专融合”技术路径提供了新的范例。

1. 数据精炼框架:提升数据效率,突破算力瓶颈

面对大模型训练中日益严峻的数据瓶颈问题,上海AI实验室提出“思维密度”(IQPT)的概念,强调数据质量而非单纯规模的重要性。 书生·浦语3.0通过构建大规模数据精炼框架,仅使用4T训练数据就达到了同量级开源模型(约18T数据)的性能,训练成本节省75%以上。该框架的核心在于:

  1. 数据处理的智能化:运用智能体自我演进技术,对千万个领域的数据进行大规模自动化质检和定制化处理。
  2. 高价值数据的合成:基于“通专融合”方式,利用通用模型快速迭代合成算法,再用精选数据训练专用模型,最终合成大量高质量数据。

通过上述框架,书生·浦语3.0的数据思维密度比Llama3.1高出4倍以上,展现了显著的“投入产出比”优势。

2. 深度思考与常规对话融合:兼具“能言”与“巧思”

书生·浦语3.0首次在通用模型中实现了深度思考和常规对话能力的融合,用户可通过系统提示词一键切换模式。这突破了以往需要分别构建专用模型的限制,使得单一模型能够应对更多真实场景。该融合能力的实现,得益于研究团队对不同类型数据的融合训练方案的探索,以及基于世界知识树的指令标注与合成方案。

3. 开源赋能:积极拥抱开源社区和国产生态

上海AI实验室积极推动书生·浦语3.0的开源,提供开源基座模型、全栈开源工具链等,方便产业界和开发者使用。同时,实验室还与昇腾、寒武纪、沐曦等算力硬件厂商合作,实现了书生·浦语3.0在新兴算力硬件上的高效运行,促进AI生态繁荣。

4. 性能表现:超越同量级开源模型,逼近GPT-4

基于司南OpenCompass开源评测框架,书生·浦语3.0在CMMLU、GPQA等多个权威评测集上取得了领先成绩,综合性能接近GPT-4-mini。它能够出色地完成推理谜题、猜数字游戏等任务,并展现了优秀的创作能力和深度信息挖掘能力,例如在二手房网站上模拟用户行为查找房源。

总而言之,书生·浦语3.0 通过数据精炼框架和“通专融合”技术路径,在提升模型性能的同时,降低了训练成本,并实现了深度思考与常规对话能力的融合,为大模型发展提供了新的方向。


联系作者

文章来源:夕小瑶科技说
作者微信:
作者简介:低负担解码AI世界,硬核也可爱!聚集35万AI发烧友、开发者和从业者,广泛覆盖互联网大厂中高管、AI公司创始人和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止