标签:精度
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
至高 1.8 倍无损加速!互补量化方案的投机加速
夕小瑶科技说 原创作者 | Juntao Zhao等本文作者来自香港大学和哈尔滨工业大学。其中共同第一作者分别为来自香港大学Netexplo实验室的博士生Juntao Zhao、She...
时序大模型突破十亿参数!新混合专家架构,普林斯顿格里菲斯等机构出品
TimeMoE团队 投稿自 凹非寺量子位 | 公众号 QbitAI时序大模型,参数规模突破十亿级别。 来自全球多只华人研究团队提出了一种基于混合专家架构(Mixture of Ex...
清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐
PACMAN实验室投稿量子位 | 公众号 QbitAI一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍! 清华大学计算机系PACMAN实验室发布开源混合精度推理系统——M...
又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
「乘法变加法」!MIT清华校友全新方法优化Transformer:Addition is All You Need
新智元报道编辑:乔杨 好困 【新智元导读】Transformer计算,竟然直接优化到乘法运算了。MIT两位华人学者近期发表的一篇论文提出:Addition is All You Need...
一行代码训练成本再降30%,AI大模型混合精度训练再升级|开源
允中 发自 凹非寺量子位 | 公众号 QbitAIFP8通过其独特的数值表示方式,能够在保持一定精度的同时,在大模型训练中提高训练速度、节省内存占用,最终降低训练...
如何估计LLM推理和训练所需的GPU内存?
导读文章转载自知乎,作者为孙鹏飞,本文整理了一份训练或推理需要显存的计算方式。 原文地址:https://zhuanlan.zhihu.com/p/716317173 本文只做学术/技术分...
大模型训练及推理经典必读:FP8的what,why,how及其带来的机会?
生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯...
大模型量化技术原理:FP8
生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI...
大模型终端部署新趋势:硬件直接支持混合矩阵乘法
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
FP8 低精度训练:Transformer Engine 简析
大模型时代最火AI芯片峰会来啦!!9月6-7日,由智猩猩联合主办的2024全球AI芯片峰会将在北京举行。峰会设有数据中心AI芯片、智算集群技术论坛等7大板块。目前...
万字综述:全面梳理 FP8 训练和推理技术
大模型时代最火AI芯片峰会来啦!!9月6-7日,由智猩猩联合主办的2024全球AI芯片峰会将在北京举行。峰会设有数据中心AI芯片、智算集群技术论坛等7大板块。目前...
CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源
新智元报道编辑:LRST 好困 【新智元导读】T-MAC是一种创新的基于查找表(LUT)的方法,专为在CPU上高效执行低比特大型语言模型(LLMs)推理而设计,无需权重...
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
微软亚洲研究院 投稿量子位 | 公众号 QbitAI有CPU就能跑大模型,性能甚至超过NPU/GPU! 没错,为了优化模型端侧部署,微软亚洲研究院提出了一种新技术——T-MAC...
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
模型工具链团队 投稿量子位 | 公众号 QbitAI单卡搞定Llama 3.1(405B),最新大模型压缩工具来了! 最近Llama-3.1登上开源顶峰,但其最强的405B版本模型900多...