标签:注意力

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

14天速成LLM高手!大佬开源学习笔记,GitHub狂揽700星

新智元报道编辑:LRS 【新智元导读】一位AI从业者分享的14天学习路线图,涵盖大模型从基础到高级的主要关键概念!无论是面试找工作、还是自学创业,甚至想要...
阅读原文

Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

无问芯穹提出混合稀疏注意力方案MoA,加速长文本生成,实现最高8倍吞吐率提升

机器之心发布 机器之心编辑部随着大语言模型在长文本场景下的需求不断涌现,其核心的注意力机制(Attention Mechanism)也获得了非常多的关注。 注意力机制会...
阅读原文

微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑

梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer自问世后就大放异彩,但有个小毛病一直没解决: 总爱把注意力放在不相关的内容上,也就是信噪比低。 现在...
阅读原文

意识理论之注意的伴随放电(CODAM)模型(一)

来源:本来实验室 概要 CODAM模型,即Corollary Discharge of Attention Movement模型,是由John G. Taylor等人提出的一种神经网络模型,其目的是解释意识体...
阅读原文

大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架

中科大博士冯源 投稿量子位 | 公众号 QbitAI改进KV缓存压缩,大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓...
阅读原文

7B新王!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

新智元报道编辑:LRS 【新智元导读】Zamba2-7B是一款小型语言模型,在保持输出质量的同时,通过创新架构实现了比同类模型更快的推理速度和更低的内存占用,在...
阅读原文

英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

新智元报道编辑:桃子 LRS 【新智元导读】LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能...
阅读原文

又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

Jurgen、曼宁等大佬新作:MoE重塑6年前的Universal Transformer,高效升级

机器之心报道 编辑:杜伟、蛋酱7 年前,谷歌在论文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年,谷歌又发布了 Unive...
阅读原文

性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了 | 中山大学&360 AI Research

Qihoo-T2X团队 投稿量子位 | 公众号 QbitAI性能不输SOTA模型,计算开销却更低了—— 中山大学和360 AI Research联合推出PT-DiT,同参数规模下,计算量仅为DiT的...
阅读原文

北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

NeurIPS 2024 | Transformer长度外推,全新位置编码DAPE大幅提升模型性能

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

这篇论文非常火!差分Transformer竟能消除注意力噪声,犹如降噪耳机

机器之心报道 编辑:PandaTransformer 的强大实力已经在诸多大型语言模型(LLM)上得到了证明,但该架构远非完美,也有很多研究者致力于改进这一架构,比如机...
阅读原文
1238