标签:注意力
2.5%KV缓存保持大模型90%性能,大模型金字塔式信息汇聚模式探秘|开源
蔡泽凡 投稿量子位 | 公众号 QbitAI用KV缓存加速大模型的显存瓶颈,终于迎来突破。 北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案,只用2....
i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
SSM 能取代 Transformer 搞出更「牛」的大模型吗?
机器之心PRO · 会员通讯 Week 23---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. SSM 能取代 Transformer 搞出更「牛」的大模型吗? SSM ...
中山大学和字节发布「视频虚拟试穿」扩散模型VITON-DiT,一键生成换装后视频!
夕小瑶科技说 原创作者 | 任同学 视频虚拟试穿技术日益受到关注,然而现有的工作局限于将服装图像转移到姿势和背景简单的视频上,对于随意拍摄的视频则效果不...
Mamba-2:超越 Transformer 的新架构,训练效率大幅提升!
机器之心报道 来源:机器学习算法与Python学习自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规...
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
机器之心报道 机器之心编辑部自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规模的扩展和需要处...
新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2,状态空间扩大8倍,训练速度提高50%! 更重要的是,团...
Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
新智元报道编辑:编辑部 【新智元导读】在开源社区引起「海啸」的Mamba架构,再次卷土重来!这次,Mamba-2顺利拿下ICML。通过统一SSM和注意力机制,Transform...
ICML2024高分!魔改注意力,让小模型能打两倍大的模型
彩云科技团队 投稿量子位 | 公众号 QbitAI改进Transformer核心机制注意力,让小模型能打两倍大的模型! ICML 2024高分论文,彩云科技团队构建DCFormer框架,...
ControlNet作者搞起大模型:让天下没有难写的生图提示词,一句话变构图小作文
梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAIControlNet作者新项目,居然也搞起大模型和Agent了。 当然还是和AI绘画相关:解决大伙不会写提示词的痛点。 现...
Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
机器之心报道 编辑:泽南、杜伟用卷积能做出一样好的效果。在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗? 今年年初,OpenAI 视频大...
ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
图灵奖得主Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
来源:机器之心 机器之心编辑部既能像 Transformer 一样并行训练,推理时内存需求又不随 token 数线性递增,长上下文又有新思路了?序列建模的进展具有极大的...
Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
机器之心报道 机器之心编辑部既能像 Transformer 一样并行训练,推理时内存需求又不随 token 数线性递增,长上下文又有新思路了?序列建模的进展具有极大的影...
ICML2024高分论文!大模型计算效率暴涨至200%,来自中国AI公司
夕小瑶科技说 原创作者 夕小瑶编辑部前段时间,KAN突然爆火,成为可以替代MLP的一种全新神经网络架构,200个参数顶30万参数;而且,GPT-4o的生成速度也是惊艳...