标签:精度

如何估计LLM推理和训练所需的GPU内存?

导读文章转载自知乎,作者为孙鹏飞,本文整理了一份训练或推理需要显存的计算方式。 原文地址:https://zhuanlan.zhihu.com/p/716317173 本文只做学术/技术分...
阅读原文

大模型训练及推理经典必读:FP8的what,why,how及其带来的机会?

生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯...
阅读原文

大模型量化技术原理:FP8

‍生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI...
阅读原文

大模型终端部署新趋势:硬件直接支持混合矩阵乘法

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

FP8 低精度训练:Transformer Engine 简析

大模型时代最火AI芯片峰会来啦!!9月6-7日,由智猩猩联合主办的2024全球AI芯片峰会将在北京举行。峰会设有数据中心AI芯片、智算集群技术论坛等7大板块。目前...
阅读原文

万字综述:全面梳理 FP8 训练和推理技术

大模型时代最火AI芯片峰会来啦!!9月6-7日,由智猩猩联合主办的2024全球AI芯片峰会将在北京举行。峰会设有数据中心AI芯片、智算集群技术论坛等7大板块。目前...
阅读原文

CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源

新智元报道编辑:LRST 好困 【新智元导读】T-MAC是一种创新的基于查找表(LUT)的方法,专为在CPU上高效执行低比特大型语言模型(LLMs)推理而设计,无需权重...
阅读原文

手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

微软亚洲研究院 投稿量子位 | 公众号 QbitAI有CPU就能跑大模型,性能甚至超过NPU/GPU! 没错,为了优化模型端侧部署,微软亚洲研究院提出了一种新技术——T-MAC...
阅读原文

单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了

模型工具链团队 投稿量子位 | 公众号 QbitAI单卡搞定Llama 3.1(405B),最新大模型压缩工具来了! 最近Llama-3.1登上开源顶峰,但其最强的405B版本模型900多...
阅读原文

FBI-LLM低比特基础大语言模型来了,首个完全从头训练的二值化语言模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

30B!每秒100tokens!这是AMD对AI PC的“幻想时间”

夕小瑶科技说 原创作者 | 谷雨龙泽随着AI的高速发展,从去年开始,挂在服务器的云端AI模型已经不能满足技术发烧友的胃口了,AI PC应运而生。 AI PC就是内嵌个...
阅读原文

英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%

机器之心报道 编辑:陈陈、小舟740 TFLOPS!迄今最强 FlashAttention 来了。随着大型语言模型(LLM)加速落地,扩展模型上下文窗口变得越来越重要。然而,Tra...
阅读原文

H100利用率飙升至75%!英伟达亲自下场FlashAttention三代升级,比标准注意力快16倍

明敏 克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型训练推理神作,又更新了! 主流大模型都在用的FlashAttention,刚刚升级第三代。 时隔一年,FlashAtten...
阅读原文

CVPR 2024 Highlight | 北航等发布「时间特征维护」:无需训练,极致压缩加速Diffusion

新智元报道编辑:LRST 好困 【新智元导读】拯救4bit扩散模型精度,仅需时间特征维护——以超低精度量化技术重塑图像内容生成!近日,北航、莫纳什、UT Austin联...
阅读原文

Intel入局大模型,烧钱搜索130亿种网络结构,让LLaMa2瘦身30%

夕小瑶科技说 原创作者 | 任同学大语言模型在多个领域大放异彩,但它们的高内存和计算成本限制了广泛使用。神经架构搜索(NAS)能自动找到最优模型架构,减少...
阅读原文
12