标签:切分
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
新智元报道编辑:LRST 好困 【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略(MSAC)和尺度压缩机制(SCM),有...
Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效
机器之心发布 机器之心编辑部伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkp...
第四范式发布先知 AIOS 5.1,节省大模型算力硬件成本,提高 GPU 综合利用率
今天,第四范式先知AIOS 5.1版本正式发布。该版本新增GPU资源池化(vGPU)能力,实现对硬件集群平台化管理、算力资源的按需分配和快速调度,最多节省80%的硬...
关于Tokenizer的一些感想
原文:https://zhuanlan.zhihu.com/p/695307425 在现有Transformer作为大模型框架下,万物tokenizer将会是一个必然的趋势! 01为什么我们需要Token化?tokeni...
大模型训练之序列并行双雄:DeepSpeed Ulysses和Ring-Attention
导读本文来自知乎,作者为腾讯专家工程师方佳瑞。本文只做学术/技术分享,如有侵权,联系删文。 本文对比两种目前炙手可热长文本训练方法 DeepSpeed Ulysess ...
单个4090可推理,2000亿稀疏大模型「天工MoE」开源
机器之心发布 机器之心编辑部在大模型浪潮中,训练和部署最先进的密集 LLM 在计算需求和相关成本上带来了巨大挑战,尤其是在数百亿或数千亿参数的规模上。为...
昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理
2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间...
大模型国产化适配3-基于昇腾910使用ChatGLM-6B进行模型训练
直播预告 | 5月28日10点,「智猩猩AI新青年讲座」第236讲正式开讲,密歇根大学安娜堡分校在读博士生张挥杰将直播讲解《利用多级框架和多解码器架构提高扩散模...
大模型进入「实用」时代!腾讯助力「销冠」量产,5 分钟创建智能助手
机器之心原创 作者:张倩今年年初,英伟达 CEO 黄仁勋因为劝人「别再学习计算机」被送上热搜。但其实,他的原话是「过去,几乎每个人都会告诉你,学习计算机...
极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
华人团队用大模型实现“读心术”:大脑活动直接变文字 | NeurIPS 2023
克雷西 发自 凹非寺量子位 | 公众号 QbitAINeurIPS收录的一项新研究,让大模型也学会“读心术”了! 通过学习脑电波数据,模型成功地把受试者的脑电图信号翻译...
32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了
机器之心发布机器之心编辑部9 月 12 日,淘天集团联合爱橙科技正式对外开源大模型训练框架 ——Megatron-LLaMA,旨在让技术开发者们能够更方便的提升大语言模型...