标签:线性
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
迈向复现 OpenAI o1 的一小步:Steiner 开源模型阶段性进展报告
讲座预告11月1日上午10点,南开大学在读博士李森茂,将以《基于扩散模型编码器模块的推理加速》为主题进行直播讲解,欢迎扫码报名~导读作者为季逸超 原文来自...
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
机器之心报道 机器之心编辑部Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,...
如何让等变神经网络可解释性更强?试试将它分解成「简单表示」
机器之心报道 编辑:Panda神经网络是一种灵活且强大的函数近似方法。而许多应用都需要学习一个相对于某种对称性不变或等变的函数。图像识别便是一个典型示例 ...
斯坦福提出大模型最强架构TTT,超越Transformers
夕小瑶科技说 原创作者 | 谢年年在Transformer被提出以前,以LSTMs为代表的RNNs网络结构由于计算简单、擅长处理序列数据常被用作NLP领域的基础架构。但受其结...
新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型
梦晨 发自 凹非寺量子位 | 公众号 QbitAI新架构,再次向Transformer发起挑战! 核心思想:将RNN中的隐藏状态换成可学习的模型。 甚至在测试时都可以学习,所...
神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
SSM 能取代 Transformer 搞出更「牛」的大模型吗?
机器之心PRO · 会员通讯 Week 23---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. SSM 能取代 Transformer 搞出更「牛」的大模型吗? SSM ...
新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2,状态空间扩大8倍,训练速度提高50%! 更重要的是,团...
替代MLP的KAN,被开源项目扩展到卷积了
机器之心报道 机器之心编辑部本月初,来自 MIT 等机构的研究者提出了一种非常有潜力的 MLP 替代方法 ——KAN。 KAN 在准确性和可解释性方面表现优于 MLP,而且...
爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP
机器之心报道 编辑:蛋酱、张倩KAN 作者:我想传达的信息不是「KAN 很棒」,而是「尝试批判性地思考当前的架构,并寻求从根本上不同的替代方案,这些方案可以...
CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯
Yiyuan 投稿量子位 | 公众号 QbitAI万万没想到,与任务无直接关联的多模态数据也能提升Transformer模型性能。 比如训练一个图像分类模型,除了标注好类别的图...
无向图最小割问题取得新突破,谷歌研究获SODA 2024最佳论文奖
机器之心报道 机器之心编辑部谷歌博客放出新研究,求解无向图的最小割问题。1996 年, 美国计算机科学家 David R Karger 连同其他研究者在论文《 A new appro...
UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一
新智元报道编辑:润 【新智元导读】Claude 3不但数据集跑分领先,用户体验上也将成为最强大的LLM,GPT-5在哪里?Claude 3和GPT-4到底谁厉害? 自从Claude 3发...
如何从头开始编写LoRA代码,这有一份教程
选自 lightning.ai 作者:Sebastian Raschka 机器之心编译 编辑:陈萍作者表示:在各种有效的 LLM 微调方法中,LoRA 仍然是他的首选。LoRA(Low-Rank Adaptat...
DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压
新智元报道编辑:编辑部 【新智元导读】线性RNN赢了?近日,谷歌DeepMind一口气推出两大新架构,在d基准测试中超越了Transformer。新架构不仅保证了高效的训...
12