标签:状态

LIama 3+Mamba强强联手!蒸馏到线性RNN,推理速度提升1.6倍

克雷西 发自 凹非寺量子位 | 公众号 QbitAI把Llama 3蒸馏到Mamba,推理速度最高可提升1.6倍! 而且性能不减,甚至表现比原始模型还要优异。 这是来自Together...
阅读原文

从麦克斯韦妖到量子生物学,生命物质中是否潜藏着新物理学?

导语直到著名的麦克斯韦妖(Maxwell's demon)出现之前,信息和物理之间的联系一直不甚明确。而如今,信息正在成为连接物理学和生物学的一个关键概念。许多物...
阅读原文

一文看懂Mamba,Transformer最强竞争者

机器之心报道 编辑:PandaMamba 虽好,但发展尚早。深度学习架构有很多,但近些年最成功的莫过于 Transformer,其已经在多个应用领域确立了自己的主导地位。 ...
阅读原文

大模型对语言有自己的理解!MIT论文揭示大模型“思维过程” | ICML 24

克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型对现实世界,可以形成自己的理解! MIT的一项研究发现,随着模型能力越强,它对现实的理解可能不仅是简单模...
阅读原文

苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源

克雷西 发自 凹非寺量子位 | 公众号 QbitAI苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。 这套Benchmark创新性地采用了场景化测...
阅读原文

对吴恩达 workflow 概念产品化的思考

大模型时代最火AI芯片峰会来啦!!9月6-7日,由芯东西联合主办的2024全球AI芯片峰会将在北京举行。峰会设有数据中心AI芯片、智算集群等7大板块。目前,AMD人...
阅读原文

一文读懂强化学习的 Q 学习算法

大数据文摘受权转载自数据派THU 作者:陈之炎‍‍‍‍本文介绍一篇收录在《IEEE TRANSACTIONS ON INFORMATION THEORY》的论文。强化学习中的价值学习算法是一类重...
阅读原文

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

作者 | 赵明华 近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。 图 1 所有序列建模层都可以表示...
阅读原文

新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型

梦晨 发自 凹非寺量子位 | 公众号 QbitAI新架构,再次向Transformer发起挑战! 核心思想:将RNN中的隐藏状态换成可学习的模型。 甚至在测试时都可以学习,所...
阅读原文

大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

新智元报道编辑:编辑部 【新智元导读】超越Transformer和Mamba的新架构,刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模...
阅读原文

经典综述:自由能原理——统一的大脑理论

导语自由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”,从第一性原理出发解释智能体更新认知、探索和改变世界的机制,被认为有可能成为智能的第...
阅读原文

Q*项目公开发布!研究团队并非OpenAI

昆仑万维 投稿量子位 | 公众号 QbitAIQ*项目公开发布,可让小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力。 自去年11月伴随着OpenAI内讧,其神秘Q...
阅读原文

今日arXiv最热大模型论文:清华大学:一个简单缩放让大模型利用长上下文能力提升15.2%

夕小瑶科技说 原创作者 | 谢年年 不知道大家发现没有,一些大模型的提示技巧总是习惯将一些重要指令或信息放在提示的开头或者结尾。 这是因为LLMs在处理上下...
阅读原文

GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界

新智元报道编辑:桃子乔杨 【新智元导读】大模型是世界模型吗?UA微软等机构最新研究发现,GPT-4在复杂环境的模拟中,准确率甚至不及60%。对此,LeCun激动地...
阅读原文

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

机器之心报道 机器之心编辑部如果 GPT-4 在模拟基于常识任务的状态变化时准确率都只有约 60%,那么我们还要考虑将大语言模型作为世界模拟器来使用吗?最近两...
阅读原文
1234