标签:切分

2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症

新智元报道编辑:LRST 好困 【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有...
阅读原文

Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

机器之心发布 机器之心编辑部伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkp...
阅读原文

第四范式发布先知 AIOS 5.1,节省大模型算力硬件成本,提高 GPU 综合利用率

今天,第四范式先知AIOS 5.1版本正式发布。该版本新增GPU资源池化(vGPU)能力,实现对硬件集群平台化管理、算力资源的按需分配和快速调度,最多节省80%的硬...
阅读原文

关于Tokenizer的一些感想

原文:https://zhuanlan.zhihu.com/p/695307425 在现有Transformer作为大模型框架下,万物tokenizer将会是一个必然的趋势! 01为什么我们需要Token化?tokeni...
阅读原文

大模型训练之序列并行双雄:DeepSpeed Ulysses和Ring-Attention

导读本文来自知乎,作者为腾讯专家工程师方佳瑞。本文只做学术/技术分享,如有侵权,联系删文。 本文对比两种目前炙手可热长文本训练方法 DeepSpeed Ulysess ...
阅读原文

单个4090可推理,2000亿稀疏大模型「天工MoE」开源

机器之心发布 机器之心编辑部在大模型浪潮中,训练和部署最先进的密集 LLM 在计算需求和相关成本上带来了巨大挑战,尤其是在数百亿或数千亿参数的规模上。为...
阅读原文

昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理

2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间...
阅读原文

大模型国产化适配3-基于昇腾910使用ChatGLM-6B进行模型训练

直播预告 | 5月28日10点,「智猩猩AI新青年讲座」第236讲正式开讲,密歇根大学安娜堡分校在读博士生张挥杰将直播讲解《利用多级框架和多解码器架构提高扩散模...
阅读原文

大模型进入「实用」时代!腾讯助力「销冠」量产,5 分钟创建智能助手

机器之心原创 作者:张倩今年年初,英伟达 CEO 黄仁勋因为劝人「别再学习计算机」被送上热搜。但其实,他的原话是「过去,几乎每个人都会告诉你,学习计算机...
阅读原文

极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

华人团队用大模型实现“读心术”:大脑活动直接变文字 | NeurIPS 2023

克雷西 发自 凹非寺量子位 | 公众号 QbitAINeurIPS收录的一项新研究,让大模型也学会“读心术”了! 通过学习脑电波数据,模型成功地把受试者的脑电图信号翻译...
阅读原文

32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了

机器之心发布机器之心编辑部9 月 12 日,淘天集团联合爱橙科技正式对外开源大模型训练框架 ——Megatron-LLaMA,旨在让技术开发者们能够更方便的提升大语言模型...
阅读原文