标签:矩阵

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

突破无规则稀疏计算边界,编译框架CROSS数倍提升模型性能

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

50s完成7B模型量化,4bit达到新SOTA,大模型低比特量化有新招了 | NeurIPS 2024 Oral

DuQuant团队 投稿量子位 | 公众号 QbitAI消除激活值(outliers),大语言模型低比特量化有新招了—— 自动化所、清华、港城大团队最近有一篇论文入选了NeurIPS 20...
阅读原文

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

机器之心发布 机器之心编辑部字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。面向残差连接的主要变体的局...
阅读原文

清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐

PACMAN实验室投稿量子位 | 公众号 QbitAI一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍! 清华大学计算机系PACMAN实验室发布开源混合精度推理系统——M...
阅读原文

低内存占用也能实现满血训练?!北理北大港中文MMLab推出Fira训练框架

Fira团队 投稿量子位 | 公众号 QbitAI内存占用小,训练表现也要好……大模型训练成功实现二者兼得。 来自北理、北大和港中文MMLab的研究团队提出了一种满足低秩...
阅读原文

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

新智元报道编辑:桃子 LRS 【新智元导读】LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能...
阅读原文

又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

一行代码训练成本再降30%,AI大模型混合精度训练再升级|开源

允中 发自 凹非寺量子位 | 公众号 QbitAIFP8通过其独特的数值表示方式,能够在保持一定精度的同时,在大模型训练中提高训练速度、节省内存占用,最终降低训练...
阅读原文

Sigmoid注意力一样强,苹果开始重新审视注意力机制

机器之心报道 机器之心编辑部注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归...
阅读原文

昂贵LLM的救星?Nature新研究提出新型忆阻器,比Haswell CPU高效460倍

机器之心报道 编辑:Panda前些天,OpenAI 发布了 ο1 系列模型,它那「超越博士水平的」强大推理性能预示着其必将在人们的生产生活中大有作为。但它的使用成本...
阅读原文

比LoRA更高效!上交大&哈佛推出新微调框架,瞄准特定任务方向

DV lab 投稿量子位 | 公众号 QbitAI比LoRA更高效的模型微调方法来了—— 以常识推理为例,在参数量减少8~16倍的情况下,两种方法能达到相同效果。 新方法名叫Lo...
阅读原文

PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代

新智元报道编辑:乔杨 Frey 【新智元导读】用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA...
阅读原文

用最直观的动画,讲解LLM如何存储事实,3Blue1Brown的这个视频又火了

机器之心报道 编辑:Panda W、陈陈本文根据视频整理而来,有听错或理解不当之处欢迎在评论区指出。向大模型输入「Michael Jordan plays the sport of _____(...
阅读原文

多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA

明敏 发自 凹非寺量子位 | 公众号 QbitAIAttention is all you need. 至少在矩阵这儿是。 Mamba架构最新进展:仅需1%计算量,新模型性能达SOTA。 能做到这一...
阅读原文
1235