显存瓶颈被打破!大模型训练的黑科技来了,带宽不再制约大模型训练

显存瓶颈被打破!大模型训练的黑科技来了,带宽不再制约大模型训练

AIGC动态欢迎阅读

原标题:显存瓶颈被打破!大模型训练的黑科技来了,带宽不再制约大模型训练
关键字:模型,参数,张量,显存,数据
文章来源:夕小瑶科技说
内容字数:11916字

内容摘要:


夕小瑶科技说 原创作者 | 卖萌酱
大家好,我是卖萌酱。
来一个快问快答,如何使用性能有限的GPU卡从头训练出一个ChatGPT
在目前,随着模型参数量不断暴涨,大家对算力的要求也水涨船高。对比GPT-3当年使用了10000块GPU,花了30天训练了1750亿参数,现实条件下我们一没法组织起无限算力,二来手里的计算卡硬件设备还可能差异很大,显存、带宽水平参差不齐,在卡不多条件又比较艰苦的背景下,我们该如何进行高效的大模型训练呢?
我们在这篇论文中找到了答案。
论文标题:YUAN 2.0: A Large Language Model with Localized Filtering-based Attention
论文链接:https://arxiv.org/ftp/arxiv/papers/2311/2311.15786.pdf
项目地址:https://github.com/IEIT-Yuan/Yuan-2.0
模型下载:https://huggingface.co/IEITYuan
在上个月,浪潮信息发布了千亿级别的开源大模型源2.0,作为一个开源模型,源2.0在多个评测指标上


原文链接:显存瓶颈被打破!大模型训练的黑科技来了,带宽不再制约大模型训练

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...