注意力 - OpenI

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

6个月前

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

10个月前

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

9个月前

14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

新智元报道编辑：LRS 【新智元导读】一位AI从业者分享的14天学习路线图，涵盖大模型从基础到高级的主要关键概念！无论是面试找工作、还是自学创业，甚至想要...

阅读原文

AIGC动态

9个月前

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

9个月前

无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升

机器之心发布机器之心编辑部随着大语言模型在长文本场景下的需求不断涌现，其核心的注意力机制（Attention Mechanism）也获得了非常多的关注。注意力机制会...

阅读原文

AIGC动态

9个月前

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

梦晨发自凹非寺量子位 | 公众号 QbitAITransformer自问世后就大放异彩，但有个小毛病一直没解决：总爱把注意力放在不相关的内容上，也就是信噪比低。现在...

阅读原文

AIGC动态

9个月前

意识理论之注意的伴随放电（CODAM）模型（一）

来源：本来实验室概要 CODAM模型，即Corollary Discharge of Attention Movement模型，是由John G. Taylor等人提出的一种神经网络模型，其目的是解释意识体...

阅读原文

AIGC动态

9个月前

大模型压缩KV缓存新突破，中科大提出自适应预算分配，工业界已落地vLLM框架

中科大博士冯源投稿量子位 | 公众号 QbitAI改进KV缓存压缩，大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV，通过自适应预算分配算法来优化KV缓...

阅读原文

AIGC动态

9个月前

7B新王！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少

新智元报道编辑：LRS 【新智元导读】Zamba2-7B是一款小型语言模型，在保持输出质量的同时，通过创新架构实现了比同类模型更快的推理速度和更低的内存占用，在...

阅读原文

AIGC动态

10个月前

英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

新智元报道编辑：桃子 LRS 【新智元导读】LLM训练速度还可以再飙升20倍！英伟达团队祭出全新架构归一化Transformer（nGPT），上下文越长，训练速度越快，还能...

阅读原文

AIGC动态

10个月前

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

10个月前

Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

机器之心报道编辑：杜伟、蛋酱7 年前，谷歌在论文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年，谷歌又发布了 Unive...

阅读原文

AIGC动态

10个月前

性能不输SOTA，计算量仅DiT一半！T2X任务新范式来了 | 中山大学&360 AI Research

Qihoo-T2X团队投稿量子位 | 公众号 QbitAI性能不输SOTA模型，计算开销却更低了—— 中山大学和360 AI Research联合推出PT-DiT，同参数规模下，计算量仅为DiT的...

阅读原文

AIGC动态

10个月前

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Mamba

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

10个月前

NeurIPS 2024 | Transformer长度外推，全新位置编码DAPE大幅提升模型性能

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

10个月前

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

机器之心报道编辑：PandaTransformer 的强大实力已经在诸多大型语言模型（LLM）上得到了证明，但该架构远非完美，也有很多研究者致力于改进这一架构，比如机...

阅读原文

AIGC动态

10个月前

标签：注意力