标签:注意力

大模型笔记!以LLAMA为例,快速入门LLM的推理过程

直播预告 | 下周一晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到端...
阅读原文

​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度

机器之心专栏 机器之心编辑部Lightning Attention-2 是一种新型的线性注意力机制,让长序列的训练和推理成本与 1K 序列长度的一致。 大语言模型序列长度的限...
阅读原文

AI:你总要高清视频,它来了

机器之心报道 机器之心编辑部以后,就算是跑着拍视频,FMA-Net也能给你处理得非常满意。 Magnific 图像超分 & 增强工具还正在火热体验中,它强大的图像升...
阅读原文

大模型无限流式输入推理飙升46%!国产开源加速「全家桶」,打破多轮对话长度限制

新智元报道编辑:好困 桃子 【新智元导读】大模型推理再次跃升一个新台阶!最近,全新开源的国产SwiftInfer方案,不仅能让LLM处理无限流式输入,而且还将推理...
阅读原文

多轮对话推理速度提升46%,开源方案打破LLM多轮对话的长度限制​

机器之心发布 机器之心编辑部在大型语言模型(LLM)的世界中,处理多轮对话一直是一个挑战。前不久麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM,能够在...
阅读原文

400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低

明敏 发自 凹非寺量子位 | 公众号 QbitAI22倍加速还不够,再来提升46%,而且方法直接开源! 这就是开源社区改进MIT爆火项目StreamingLLM的最新成果。 Streami...
阅读原文

Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%

新智元报道编辑:LRS 【新智元导读】Hyena处理长序列输入比FlashAttention速度高100倍!最新发布的StripedHyena模型可能成下一代AI架构的新标准?最近几年发...
阅读原文

Mamba可以替代Transformer,但它们也能组合起来使用

机器之心报道 编辑:Panda W1+1>2。Transformer 很厉害,但并不完美,尤其是在处理长序列方面。而状态空间模型(SSM)则在长序列上的表现相当不俗。早在去年...
阅读原文

谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构

机器之心编译 机器之心编辑部自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,未来这种情况是一直持续,还是会有新的研究出现,我们不妨先听...
阅读原文

Softmax注意力与线性注意力的优雅融合,Agent Attention推动注意力新升级

机器之心专栏 作者:韩东辰来自清华大学的研究者提出了一种新的注意力范式——代理注意力 (Agent Attention)。近年来,视觉 Transformer 模型得到了极大的发展...
阅读原文

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍

机器之心报道 机器之心编辑部Meta的视频合成新框架又给了我们一点小小的震撼。就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不...
阅读原文

人大高瓴提出“注意力波”方法,70 亿参数 Llama 比肩 GPT-4

夕小瑶科技说 原创作者 | 智商掉了一地、python最近,随着大型语言模型(LLM)在人机交互、多模态任务和语言应用等领域的广泛应用,研究者们纷纷致力于提升这...
阅读原文

一文剖析GPT推断中的批处理(Batching)效应

来源:PaperWeekly作者:陈乐群学校:华盛顿大学博士生研究方向 :机器学习系统及分布式系统机器学习模型依赖于批处理(Batching)来提高推断吞吐量,尤其是...
阅读原文

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

机器之心报道编辑:Panda在视频生成场景中,用 Transformer 做扩散模型的去噪骨干已经被李飞飞等研究者证明行得通。这可算得上是 Transformer 在视频生成领域...
阅读原文

​丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了

机器之心报道机器之心编辑部替代注意力机制,SSM 真的大有可为?为了用更少的算力让扩散模型生成高分辨率图像,注意力机制可以不要,这是康奈尔大学和苹果的...
阅读原文
145678