注意力 - 第 4 页

2.5%KV缓存保持大模型90%性能，大模型金字塔式信息汇聚模式探秘｜开源

蔡泽凡投稿量子位 | 公众号 QbitAI用KV缓存加速大模型的显存瓶颈，终于迎来突破。北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案，只用2....

阅读原文

AIGC动态

1年前 (2024)

i人小助手：Meta推出多模态对话图，帮你轻松识别社交状态

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

1年前 (2024)

SSM 能取代 Transformer 搞出更「牛」的大模型吗？

机器之心PRO · 会员通讯 Week 23---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. SSM 能取代 Transformer 搞出更「牛」的大模型吗？ SSM ...

阅读原文

AIGC动态

1年前 (2024)

中山大学和字节发布「视频虚拟试穿」扩散模型VITON-DiT，一键生成换装后视频！

夕小瑶科技说原创作者 | 任同学视频虚拟试穿技术日益受到关注，然而现有的工作局限于将服装图像转移到姿势和背景简单的视频上，对于随意拍摄的视频则效果不...

阅读原文

AIGC动态

1年前 (2024)

Mamba-2：超越 Transformer 的新架构，训练效率大幅提升！

机器之心报道来源：机器学习算法与Python学习自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，一直稳居语言建模方面 C 位。但随着模型规...

阅读原文

AIGC动态

1年前 (2024)

再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升

机器之心报道机器之心编辑部自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，一直稳居语言建模方面 C 位。但随着模型规模的扩展和需要处...

阅读原文

AIGC动态

1年前 (2024)

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

梦晨发自凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba，刚刚更新了第二代： Mamba-2，状态空间扩大8倍，训练速度提高50%！更重要的是，团...

阅读原文

AIGC动态

1年前 (2024)

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

新智元报道编辑：编辑部【新智元导读】在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transform...

阅读原文

AIGC动态

1年前 (2024)

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

彩云科技团队投稿量子位 | 公众号 QbitAI改进Transformer核心机制注意力，让小模型能打两倍大的模型！ ICML 2024高分论文，彩云科技团队构建DCFormer框架，...

阅读原文

AIGC动态

1年前 (2024)

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文

梦晨西风发自凹非寺量子位 | 公众号 QbitAIControlNet作者新项目，居然也搞起大模型和Agent了。当然还是和AI绘画相关：解决大伙不会写提示词的痛点。现...

阅读原文

AIGC动态

1年前 (2024)

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

机器之心报道编辑：泽南、杜伟用卷积能做出一样好的效果。在 Transformer 大一统的时代，计算机视觉的 CNN 方向还有研究的必要吗？今年年初，OpenAI 视频大...

阅读原文

AIGC动态

1年前 (2024)

ACL 2024 | 提升大模型持续学习性能，哈工大、度小满提出共享注意力框架SAPT

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

1年前 (2024)

图灵奖得主Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

来源：机器之心机器之心编辑部既能像 Transformer 一样并行训练，推理时内存需求又不随 token 数线性递增，长上下文又有新思路了？序列建模的进展具有极大的...

阅读原文

AIGC动态

1年前 (2024)

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

机器之心报道机器之心编辑部既能像 Transformer 一样并行训练，推理时内存需求又不随 token 数线性递增，长上下文又有新思路了？序列建模的进展具有极大的影...

阅读原文

AIGC动态

1年前 (2024)

ICML2024高分论文！大模型计算效率暴涨至200%，来自中国AI公司

夕小瑶科技说原创作者夕小瑶编辑部前段时间，KAN突然爆火，成为可以替代MLP的一种全新神经网络架构，200个参数顶30万参数；而且，GPT-4o的生成速度也是惊艳...

阅读原文

AIGC动态

1年前 (2024)

标签：注意力