标签:状态

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2,状态空间扩大8倍,训练速度提高50%! 更重要的是,团...
阅读原文

能原理:生命、意识与智能的统一原理 | 追问观察

来源:集智俱乐部 作者:牟牧云 审校:张江 封面:Myriam Wares 自由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”,从第一性原理出发解释智能体...
阅读原文

2D头像生成3D虚拟人开视频会,谷歌新作让人难绷

机器之心报道 编辑:泽南、亚鹂未来人与人的交流,难道是这个样?开视频远程会议的时候,很多人都不喜欢打开摄像头。即使开了,在界面上大家也都被框在不同的...
阅读原文

今日arXiv最热NLP大模型论文:清华大学提出IFT对齐算法,打破SFT与RLHF局限性

夕小瑶科技说 原创作者 | 谢年年 监督微调(Supervised Fine-Tuning, SFT)和基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)...
阅读原文

今日arXiv最热大模型论文:Agent也疯狂!FoA方法对智能体做树结构搜索,超越ToT

夕小瑶科技说 原创作者 | 谢年年大模型agents包揽了从理解问题、规划任务、记忆输入输出、精准调用工具,执行任务解决问题的全过程,更厉害的是,它们还有自...
阅读原文

今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力

夕小瑶科技说 原创作者 | 芒果 引言:思维可视化技术的探索此项研究提出了一种名为思维可视化(VoT)的技术,旨在通过可视化大型语言模型(LLMs)的推理过程来增...
阅读原文

DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升

机器之心专栏 机器之心编辑部近期,来自华为诺亚方舟实验室的研究者提出了 DenseSSM,用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合...
阅读原文

AI也来打掼蛋,难道人工智能也能当领导?

夕小瑶科技说 原创作者 | 松果、Python引言:探索AI在复杂卡牌游戏中的决策能力在人工智能(AI)的研究领域中,游戏被视为现实世界的简化模型,常常是研究的...
阅读原文

LeCun怒斥Sora是世界模型,自回归LLM太简化了

机器之心报道 编辑:陈萍LeCun 对「世界模型」给出了最新定义。最近几天,Sora 成为了全世界关注的焦点。与之相关的一切,都被放大到极致。 Sora 如此出圈,...
阅读原文

长文综述:大脑中的熵、能、对称性和动力学|新春特辑

导语我们的大脑在一定程度上是贝叶斯推理系统,生成内部模型对外部世界作出预测,然后将预测与感官输入不断地进行对比,形成预测误差并更新内部模型。2022年...
阅读原文

具身智能的未来

来源:CreateAMind 摘要(3万字长文) 这篇综述激发并综合了神经科学启发的人工智能和仿生计算在人类计算方面的研究成果。具体来说,我们从感知行为的理论基础...
阅读原文

大模型训练loss突刺原因和解决办法

直播预告 | 今晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到端自动...
阅读原文

有生计算,AGI之路,彻底改变具身、主动智能和认知研究的长期未来

来源:CreateAMind 摘要(3万字长文) 这篇综述激发并综合了神经科学启发的人工智能和仿生计算在人类计算方面的研究成果。具体来说,我们从感知行为的理论基础...
阅读原文

Transformer竟是无限状态RNN?

夕小瑶科技说 原创作者 | 付奶茶、python近期,Transformer再度成为学术界的热门话题! Meta的一项最新研究带来了一个新的发现:在某些情况下,'Transformer...
阅读原文

性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight

新智元报道编辑:LRS 好困 【新智元导读】SPF算法是一种基于状态序列频域预测的表征学习方法,利用状态序列的频域分布来显式提取状态序列数据中的趋势性和规...
阅读原文
1234