注意力 - 第 2 页

清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！

新智元报道编辑：乔杨好困【新智元导读】随着诺贝尔物理学奖颁给了「机器学习之父」Geoffrey Hinton，另一个借鉴物理学概念的模型架构也横空出世——微软清华...

阅读原文

AIGC动态

1年前 (2024)

Sebastian Raschka最新博客：从头开始，用Llama 2构建Llama 3.2

机器之心报道编辑：蛋酱十天前的 Meta Connect 2024 大会上，开源领域迎来了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。两个版本都是纯文...

阅读原文

AIGC动态

1年前 (2024)

告别CUDA无需Triton！Mirage零门槛生成PyTorch算子，人均GPU编程大师？

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

1年前 (2024)

开源！上海AI Lab视频生成大模型书生·筑梦 2.0来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

1年前 (2024)

Sigmoid注意力一样强，苹果开始重新审视注意力机制

机器之心报道机器之心编辑部注意力是 Transformer 架构的关键部分，负责将每个序列元素转换为值的加权和。将查询与所有键进行点积，然后通过 softmax 函数归...

阅读原文

AIGC动态

1年前 (2024)

任意论文一键变播客，谷歌正式发布Illuminate，它能重构研究者的学习方式吗？

机器之心报道编辑：陈陈、蛋酱像听书一样「读」论文。‍先来听一段英文播客，内容是不是很熟悉？是的，这俩人就是在聊那篇《Attention is All You Need》。在...

阅读原文

AIGC动态

1年前 (2024)

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

机器之心报道机器之心编辑部Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，...

阅读原文

AIGC动态

1年前 (2024)

多亏Transformer，Mamba更强了！仅用1%计算量达新SOTA

明敏发自凹非寺量子位 | 公众号 QbitAIAttention is all you need. 至少在矩阵这儿是。 Mamba架构最新进展：仅需1%计算量，新模型性能达SOTA。能做到这一...

阅读原文

AIGC动态

1年前 (2024)

机器人策略学习的Game Changer？伯克利提出Body Transformer

机器之心报道编辑：Panda过去几年间，Transformer 架构已经取得了巨大的成功，同时其也衍生出了大量变体，比如擅长处理视觉任务的 Vision Transformer（ViT...

阅读原文

AIGC动态

1年前 (2024)

30行代码，500万长文本推理提速8倍！「树注意力」让GPU越多省的越多

梦晨发自凹非寺量子位 | 公众号 QbitAI跨GPU的注意力并行，最高提速8倍，支持512万序列长度推理。环注意力（Ring Attention）后继者——树注意力（Tree Atte...

阅读原文

AIGC动态

1年前 (2024)

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

机器之心报道编辑：陈陈用 FlexAttention 尝试一种新的注意力模式。理论上，注意力机制就是你所需要的一切。然而在实际操作中，我们还需要优化像 FlashAtten...

阅读原文

AIGC动态

1年前 (2024)

iPhone 新增「灭霸」功能，去广告更丝滑了

灭霸出现浏览器至此干净一个稍微有些年头的梗：在互联网出现之前，最小的粒子是夸克，在互联网出现之后，最小的粒子是广告上的那个叉。现在，苹果打算将...

阅读原文

AIGC动态

1年前 (2024)

三大流派与热点技术！一文看懂小模型与端侧模型

9月6-7日，2024全球AI芯片峰会将在北京召开。目前，AMD人工智能事业部高级总监王宏强，清华大学交叉信息研究院助理教授、北极雄芯创始人马恺声，珠海芯动力创...

阅读原文

AIGC动态

1年前 (2024)

斯坦福博士图解AlphaFold 3：超多细节+可视化还原ML工程师眼中的AF3

新智元报道编辑：乔杨庸庸【新智元导读】AlphaFold 3的论文太晦涩？没关系，斯坦福大学的两位博士生「图解」AlphaFold 3 ，将模型架构可视化，同时不遗漏任...

阅读原文

AIGC动态

1年前 (2024)

清华大合斯坦福大学提出混合注意力机制MoA，大模型解码速率提高6倍

夕小瑶科技说原创作者 | Richard 随着大语言模型的规模不断扩大，如何在保持模型性能的同时提高其效率，成为了当前研究的热点问题。最近，清华大学联合斯坦...

阅读原文

AIGC动态

1年前 (2024)

标签：注意力