标签:序列
新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
机器之心专栏 机器之心编辑部Lightning Attention-2 是一种新型的线性注意力机制,让长序列的训练和推理成本与 1K 序列长度的一致。 大语言模型序列长度的限...
今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!
夕小瑶科技说 原创作者 | 赛博马良 本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。 「AI论文解读达人」 可提供最热AI论文推荐、论文解读...
性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight
新智元报道编辑:LRS 好困 【新智元导读】SPF算法是一种基于状态序列频域预测的表征学习方法,利用状态序列的频域分布来显式提取状态序列数据中的趋势性和规...
多 Transformer 集合可挑战 GPT-4,推理能力是单一Transformer 的 18 倍
ICLR 匿名研究:单一 Transformer 不具备图灵完备性,但多 Transformer 可以。作者丨郭思、赖文昕 编辑丨陈彩娴 Transformer 自 2017 年出世以来就在 AI 领域...
AI测出你几岁死亡?Transformer「算命」登Nature子刊,成功预测意外死亡
新智元报道编辑:润 【新智元导读】AI算命将可以预测人类的意外死亡?丹麦科学家用全国600万人的公开数据训练了一个基于Transformer的模型,成功预测了意外死...
千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024
编辑部 整理自 MEET2024量子位 | 公众号 QbitAI大模型元年里,哪怕是跑在趋势最前沿的基座模型厂商,都难逃算力焦虑。 一方面,大模型本身由于技术特性,算力...
Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%
新智元报道编辑:LRS 【新智元导读】Hyena处理长序列输入比FlashAttention速度高100倍!最新发布的StripedHyena模型可能成下一代AI架构的新标准?最近几年发...
Mamba可以替代Transformer,但它们也能组合起来使用
机器之心报道 编辑:Panda W1+1>2。Transformer 很厉害,但并不完美,尤其是在处理长序列方面。而状态空间模型(SSM)则在长序列上的表现相当不俗。早在去年...
全球最强「开源版Gemini」诞生!全能多模态模型Emu2登热榜,多项任务刷新SOTA
新智元报道编辑:桃子 好困 【新智元导读】最强的全能多模态模型来了!就在近日,智源研究院重磅发布了开源界的「Gemini」——Emu2,一口气刷新多项SOTA。过去...
挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径
机器之心报道 编辑:张倩对 SSM 感兴趣的研究者不妨读一下这篇博士论文。 在大模型领域,Transformer 凭一己之力撑起了整个江山。但随着模型规模的扩展和需要...
字节跳动李航 | 对大语言模型的若干思考…
来源:机器之心专栏 作者:ByteDance Research负责人李航本文阐述笔者对 LLM 的一些看法,主要观点如下: ChatGPT 的突破主要在于规模带来的质变和模型调教方...
分类性能提高 10%,港中大团队利用大型蛋白质语言模型发现未知的信号肽
将 ScienceAI设为星标第一时间掌握新鲜的 AI for Science 资讯编辑 | 萝卜皮信号肽 (SP) 对于跨膜和分泌蛋白靶向并将其转移到正确位置至关重要。许多现有的预...
丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了
机器之心报道机器之心编辑部替代注意力机制,SSM 真的大有可为?为了用更少的算力让扩散模型生成高分辨率图像,注意力机制可以不要,这是康奈尔大学和苹果的...
五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈
机器之心报道编辑:张倩、蛋酱屹立不倒的 Transformer 迎来了一个强劲竞争者。在别的领域,如果你想形容一个东西非常重要,你可能将其形容为「撑起了某领域的...
Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办
梦晨 发自 凹非寺量子位 | 公众号 QbitAI现在ChatGPT等大模型一大痛点:处理长文本算力消耗巨大,背后原因是Transformer架构中注意力机制的二次复杂度。Flash...