标签:注意力
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
14天速成LLM高手!大佬开源学习笔记,GitHub狂揽700星
新智元报道编辑:LRS 【新智元导读】一位AI从业者分享的14天学习路线图,涵盖大模型从基础到高级的主要关键概念!无论是面试找工作、还是自学创业,甚至想要...
Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
无问芯穹提出混合稀疏注意力方案MoA,加速长文本生成,实现最高8倍吞吐率提升
机器之心发布 机器之心编辑部随着大语言模型在长文本场景下的需求不断涌现,其核心的注意力机制(Attention Mechanism)也获得了非常多的关注。 注意力机制会...
微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑
梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer自问世后就大放异彩,但有个小毛病一直没解决: 总爱把注意力放在不相关的内容上,也就是信噪比低。 现在...
意识理论之注意的伴随放电(CODAM)模型(一)
来源:本来实验室 概要 CODAM模型,即Corollary Discharge of Attention Movement模型,是由John G. Taylor等人提出的一种神经网络模型,其目的是解释意识体...
大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架
中科大博士冯源 投稿量子位 | 公众号 QbitAI改进KV缓存压缩,大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓...
7B新王!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少
新智元报道编辑:LRS 【新智元导读】Zamba2-7B是一款小型语言模型,在保持输出质量的同时,通过创新架构实现了比同类模型更快的推理速度和更低的内存占用,在...
英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快
新智元报道编辑:桃子 LRS 【新智元导读】LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能...
又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
Jurgen、曼宁等大佬新作:MoE重塑6年前的Universal Transformer,高效升级
机器之心报道 编辑:杜伟、蛋酱7 年前,谷歌在论文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年,谷歌又发布了 Unive...
性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了 | 中山大学&360 AI Research
Qihoo-T2X团队 投稿量子位 | 公众号 QbitAI性能不输SOTA模型,计算开销却更低了—— 中山大学和360 AI Research联合推出PT-DiT,同参数规模下,计算量仅为DiT的...
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
NeurIPS 2024 | Transformer长度外推,全新位置编码DAPE大幅提升模型性能
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
这篇论文非常火!差分Transformer竟能消除注意力噪声,犹如降噪耳机
机器之心报道 编辑:PandaTransformer 的强大实力已经在诸多大型语言模型(LLM)上得到了证明,但该架构远非完美,也有很多研究者致力于改进这一架构,比如机...