标签:注意力

中山大学和字节发布「视频虚拟试穿」扩散模型VITON-DiT,一键生成换装后视频!

夕小瑶科技说 原创作者 | 任同学 视频虚拟试穿技术日益受到关注,然而现有的工作局限于将服装图像转移到姿势和背景简单的视频上,对于随意拍摄的视频则效果不...
阅读原文

Mamba-2:超越 Transformer 的新架构,训练效率大幅提升!

机器之心报道 来源:机器学习算法与Python学习自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规...
阅读原文

再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升

机器之心报道 机器之心编辑部自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规模的扩展和需要处...
阅读原文

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2,状态空间扩大8倍,训练速度提高50%! 更重要的是,团...
阅读原文

Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍

新智元报道编辑:编辑部 【新智元导读】在开源社区引起「海啸」的Mamba架构,再次卷土重来!这次,Mamba-2顺利拿下ICML。通过统一SSM和注意力机制,Transform...
阅读原文

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

彩云科技团队 投稿量子位 | 公众号 QbitAI改进Transformer核心机制注意力,让小模型能打两倍大的模型! ICML 2024高分论文,彩云科技团队构建DCFormer框架,...
阅读原文

ControlNet作者搞起大模型:让天下没有难写的生图提示词,一句话变构图小作文

梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAIControlNet作者新项目,居然也搞起大模型和Agent了。 当然还是和AI绘画相关:解决大伙不会写提示词的痛点。 现...
阅读原文

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

机器之心报道 编辑:泽南、杜伟用卷积能做出一样好的效果。在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗? 今年年初,OpenAI 视频大...
阅读原文

ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

图灵奖得主Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存

来源:机器之心 机器之心编辑部既能像 Transformer 一样并行训练,推理时内存需求又不随 token 数线性递增,长上下文又有新思路了?序列建模的进展具有极大的...
阅读原文

Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存

机器之心报道 机器之心编辑部既能像 Transformer 一样并行训练,推理时内存需求又不随 token 数线性递增,长上下文又有新思路了?序列建模的进展具有极大的影...
阅读原文

ICML2024高分论文!大模型计算效率暴涨至200%,来自中国AI公司

夕小瑶科技说 原创作者 夕小瑶编辑部前段时间,KAN突然爆火,成为可以替代MLP的一种全新神经网络架构,200个参数顶30万参数;而且,GPT-4o的生成速度也是惊艳...
阅读原文

250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞

新智元报道编辑:乔杨 好困 【新智元导读】Llama 3发布一个月后,一位开发者在GitHub上创建了名为「从头开始实现Llama 3」的项目,引起了开源社区的广泛关注...
阅读原文

从零复现Llama3代码库爆火,大神Kapathy一键三连,GitHub狂揽2k+

西风 发自 凹非寺量子位 | 公众号 QbitAI让大神Andrej Karpathy一键三连❤️(点赞+转发+评论),一个教你从头开始实现Llama3的代码库爆火。 X上转赞收藏量超6....
阅读原文

Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star

机器之心报道 编辑:杜伟、陈萍项目中代码很多很全,值得细读。一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并...
阅读原文
1234568