标签:线性

知名AI研究者深挖谷歌Gemma:参数不止70亿,设计原则很独特

机器之心报道 编辑:陈萍、杜伟想要了解谷歌 Gemma 与 Llama 2、Mistral 有哪些异同吗?这篇文章值得一读。就在几天前,开源大模型领域迎来了重磅新玩家:谷...
阅读原文

视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

机器之心专栏 机器之心编辑部Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限...
阅读原文

​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度

机器之心专栏 机器之心编辑部Lightning Attention-2 是一种新型的线性注意力机制,让长序列的训练和推理成本与 1K 序列长度的一致。 大语言模型序列长度的限...
阅读原文

Softmax注意力与线性注意力的优雅融合,Agent Attention推动注意力新升级

机器之心专栏 作者:韩东辰来自清华大学的研究者提出了一种新的注意力范式——代理注意力 (Agent Attention)。近年来,视觉 Transformer 模型得到了极大的发展...
阅读原文

五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈

机器之心报道编辑:张倩、蛋酱屹立不倒的 Transformer 迎来了一个强劲竞争者。在别的领域,如果你想形容一个东西非常重要,你可能将其形容为「撑起了某领域的...
阅读原文

DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑

机器之心报道编辑:蛋酱难道 Transformer注定无法解决「训练数据」之外的新问题?说起大语言模型所展示的令人印象深刻的能力,其中之一就是通过提供上下文中...
阅读原文

谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化

新智元报道编辑:润 alan【新智元导读】Transformer模型是否能够泛化出新的认知和能力?最近,谷歌的研究人员进行了有关实验,对于这一问题给出了自己的答案...
阅读原文

豆瓣9分线代教材免费了!斯坦福伯克利都在用,新版PDF直接下载

西风 发自 凹非寺量子位 | 公众号 QbitAI豆瓣评分9.2、斯坦福都在用的线性代数教材,全新第四版免费来袭!没错,就是那本被认为“直击线性代数理论核心”的Line...
阅读原文

从观察、思考到行动,深度强化学习大牛Pieter Abbeel谈如何驯服机器人

机器之心报道编辑:大盘鸡这样学,还能那样学。人类的大脑具有学习新事物的能力,而且学习方式多种多样,从模仿他人到观看在线解说视频,不一而足。如果机器...
阅读原文
12