AIGC动态欢迎阅读
原标题:开源+共训,双轮驱动基础大模型创新普惠 |浪潮信息吴韶华@MEET2024
关键字:模型,数据,结构,能力,里面
文章来源:量子位
内容字数:9353字
内容摘要:
编辑部 整理自 MEET2024量子位 | 公众号 QbitAI相比GPT-3,GPT-4(包括GPT-3.5)的能力有了非常巨大的进步。
这背后其实得益于一个很重要的过程引入:微调。
在给定模型结构的情况下(即Transformer结构),随着模型参数量增大、投入算力规模和数据规模越大,模型的精度往往会更高。
但此类扩展率的研究是基于预训练的范式下开展。随即,训练模式的变化让我们也不得不重新思考:
在“预训练+微调”的范式下,尤其在微调的重要性越来越高的情况下,如何改进算法、数据以适应预训练与微调不同阶段的特性?
在MEET 2024智能未来大会现场,浪潮信息AI软件研发总监吴韶华博士便抛出了这样一个问题。
他介绍,浪潮信息的“源1.0”大模型和“源2.0”大模型正是基于以上角度出发,从算法、数据、计算三个层面入手打造而成,最终在代码、数据逻辑等方面都取得了很出色的表现。
那么,具体都有哪些实践和经验?
为了完整体现吴韶华博士对GPT-4时代大模型训练模式的见解和思考,量子位在不改变原意的基础上,对他的演讲内容进行了编辑整理。
关于MEET 智能未来大会:MEET大会是由量子位主办的
原文链接:开源+共训,双轮驱动基础大模型创新普惠 |浪潮信息吴韶华@MEET2024
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...