标签:机制

400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低

明敏 发自 凹非寺量子位 | 公众号 QbitAI22倍加速还不够,再来提升46%,而且方法直接开源! 这就是开源社区改进MIT爆火项目StreamingLLM的最新成果。 Streami...
阅读原文

谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构

机器之心编译 机器之心编辑部自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,未来这种情况是一直持续,还是会有新的研究出现,我们不妨先听...
阅读原文

历时8年终发Science,他证明老鼠有类人的想象力

来源:量子位关于大模型注意力机制,Meta又有了一项新研究。通过调整模型注意力,屏蔽无关信息的干扰,新的机制让大模型准确率进一步提升。而且这种机制不需...
阅读原文

更像人脑的新型注意力机制,Meta让大模型自动屏蔽任务无关信息,准确率提高27%

克雷西 发自 凹非寺量子位 | 公众号 QbitAI关于大模型注意力机制,Meta又有了一项新研究。通过调整模型注意力,屏蔽无关信息的干扰,新的机制让大模型准确率...
阅读原文

Meta对Transformer架构下手了:新注意力机制更懂推理

机器之心报道编辑:杜伟、陈萍作者表示,这种全新注意力机制(Sytem 2 Attention)或许你也需要呢。大型语言模型(LLM)很强已经是一个不争的事实,但它们有...
阅读原文

大模型集体失控!南洋理工新型攻击,主流AI无一幸免

西风 萧箫 发自 凹非寺量子位 | 公众号 QbitAI业界最领先的大模型们,竟然集体“越狱”了!不止是GPT-4,就连平时不咋出错的Bard、Bing Chat也全线失控,有的要...
阅读原文

上下文学习=对比学习?人大揭示ICL推理背后的隐式更新机理:梯度更新了吗?「如更」

新智元报道编辑:LRS【新智元导读】人民大学最新研究,首次从「对比学习」的角度来理解上下文学习,或可提供自注意力机制的改进思路。近些年来,基于Transfor...
阅读原文

“最强7B模型”论文发布,揭秘如何超越13B版Llama 2

克雷西 发自 凹非寺量子位 | 公众号 QbitAI来自“欧洲OpenAI”的“最强7B开源模型”Mistral最近可谓是圈粉无数。它各方面的测试指标全面超越了13B的Llama2,甚至...
阅读原文

国家自然科学基金“十四五”发展规划

来源:国家基金委、科奖在线、材料科学与工程《国家自然科学基金“十四五”发展规划》已公布规划全文,共计21个章节,完整的阐明了国家自然科学基金委十四五期...
阅读原文
12