标签:注意力
清华微软最新力作:用物理学革新Transformer注意力,「大海捞针」精度暴涨30%!
新智元报道编辑:乔杨 好困 【新智元导读】随着诺贝尔物理学奖颁给了「机器学习之父」Geoffrey Hinton,另一个借鉴物理学概念的模型架构也横空出世——微软清华...
Sebastian Raschka最新博客:从头开始,用Llama 2构建Llama 3.2
机器之心报道 编辑:蛋酱十天前的 Meta Connect 2024 大会上,开源领域迎来了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。两个版本都是纯文...
告别CUDA无需Triton!Mirage零门槛生成PyTorch算子,人均GPU编程大师?
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
开源!上海AI Lab视频生成大模型书生·筑梦 2.0来了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
Sigmoid注意力一样强,苹果开始重新审视注意力机制
机器之心报道 机器之心编辑部注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归...
任意论文一键变播客,谷歌正式发布Illuminate,它能重构研究者的学习方式吗?
机器之心报道 编辑:陈陈、蛋酱像听书一样「读」论文。先来听一段英文播客,内容是不是很熟悉?是的,这俩人就是在聊那篇《Attention is All You Need》。在...
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
机器之心报道 机器之心编辑部Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,...
多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
明敏 发自 凹非寺量子位 | 公众号 QbitAIAttention is all you need. 至少在矩阵这儿是。 Mamba架构最新进展:仅需1%计算量,新模型性能达SOTA。 能做到这一...
机器人策略学习的Game Changer?伯克利提出Body Transformer
机器之心报道 编辑:Panda过去几年间,Transformer 架构已经取得了巨大的成功,同时其也衍生出了大量变体,比如擅长处理视觉任务的 Vision Transformer(ViT...
30行代码,500万长文本推理提速8倍!「树注意力」让GPU越多省的越多
梦晨 发自 凹非寺量子位 | 公众号 QbitAI跨GPU的注意力并行,最高提速8倍,支持512万序列长度推理。 环注意力(Ring Attention)后继者——树注意力(Tree Atte...
新PyTorch API:几行代码实现不同注意力变体,兼具FlashAttention性能和PyTorch灵活性
机器之心报道 编辑:陈陈用 FlexAttention 尝试一种新的注意力模式。理论上,注意力机制就是你所需要的一切。然而在实际操作中,我们还需要优化像 FlashAtten...
iPhone 新增「灭霸」功能,去广告更丝滑了
灭霸出现 浏览器 至此干净一个稍微有些年头的梗: 在互联网出现之前,最小的粒子是夸克,在互联网出现之后,最小的粒子是广告上的那个叉。 现在,苹果打算将...
三大流派与热点技术!一文看懂小模型与端侧模型
9月6-7日,2024全球AI芯片峰会将在北京召开。目前,AMD人工智能事业部高级总监王宏强,清华大学交叉信息研究院助理教授、北极雄芯创始人马恺声,珠海芯动力创...
斯坦福博士图解AlphaFold 3:超多细节+可视化还原ML工程师眼中的AF3
新智元报道编辑:乔杨 庸庸 【新智元导读】AlphaFold 3的论文太晦涩?没关系,斯坦福大学的两位博士生「图解」AlphaFold 3 ,将模型架构可视化,同时不遗漏任...
清华大学联合斯坦福大学提出混合注意力机制MoA,大模型解码速率提高6倍
夕小瑶科技说 原创作者 | Richard 随着大语言模型的规模不断扩大,如何在保持模型性能的同时提高其效率,成为了当前研究的热点问题。最近,清华大学联合斯坦...