标签:状态
大模型对语言有自己的理解!MIT论文揭示大模型“思维过程” | ICML 24
克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型对现实世界,可以形成自己的理解! MIT的一项研究发现,随着模型能力越强,它对现实的理解可能不仅是简单模...
苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源
克雷西 发自 凹非寺量子位 | 公众号 QbitAI苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。 这套Benchmark创新性地采用了场景化测...
对吴恩达 workflow 概念产品化的思考
大模型时代最火AI芯片峰会来啦!!9月6-7日,由芯东西联合主办的2024全球AI芯片峰会将在北京举行。峰会设有数据中心AI芯片、智算集群等7大板块。目前,AMD人...
一文读懂强化学习的 Q 学习算法
大数据文摘受权转载自数据派THU 作者:陈之炎本文介绍一篇收录在《IEEE TRANSACTIONS ON INFORMATION THEORY》的论文。强化学习中的价值学习算法是一类重...
超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT
作者 | 赵明华 近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。 图 1 所有序列建模层都可以表示...
新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型
梦晨 发自 凹非寺量子位 | 公众号 QbitAI新架构,再次向Transformer发起挑战! 核心思想:将RNN中的隐藏状态换成可学习的模型。 甚至在测试时都可以学习,所...
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
新智元报道编辑:编辑部 【新智元导读】超越Transformer和Mamba的新架构,刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模...
经典综述:自由能原理——统一的大脑理论
导语自由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”,从第一性原理出发解释智能体更新认知、探索和改变世界的机制,被认为有可能成为智能的第...
Q*项目公开发布!研究团队并非OpenAI
昆仑万维 投稿量子位 | 公众号 QbitAIQ*项目公开发布,可让小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力。 自去年11月伴随着OpenAI内讧,其神秘Q...
今日arXiv最热大模型论文:清华大学:一个简单缩放让大模型利用长上下文能力提升15.2%
夕小瑶科技说 原创作者 | 谢年年 不知道大家发现没有,一些大模型的提示技巧总是习惯将一些重要指令或信息放在提示的开头或者结尾。 这是因为LLMs在处理上下...
GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界
新智元报道编辑:桃子乔杨 【新智元导读】大模型是世界模型吗?UA微软等机构最新研究发现,GPT-4在复杂环境的模拟中,准确率甚至不及60%。对此,LeCun激动地...
ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了
机器之心报道 机器之心编辑部如果 GPT-4 在模拟基于常识任务的状态变化时准确率都只有约 60%,那么我们还要考虑将大语言模型作为世界模拟器来使用吗?最近两...
Mamba-2:超越 Transformer 的新架构,训练效率大幅提升!
机器之心报道 来源:机器学习算法与Python学习自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规...
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
机器之心报道 机器之心编辑部自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规模的扩展和需要处...
新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2,状态空间扩大8倍,训练速度提高50%! 更重要的是,团...