标签:矩阵

我们还需要Transformer中的注意力吗?

选自interconnects 作者:Nathan Lambert 机器之心编译 机器之心编辑部状态空间模型正在兴起,注意力是否已到尽头?最近几周,AI 社区有一个热门话题:用无注...
阅读原文

今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损

夕小瑶科技说 原创作者 | 松果、Python引言:探索大型语言模型的高效压缩方法随着大型语言模型(LLMs)在自然语言处理领域的广泛应用,它们对计算和内存资源...
阅读原文

量子计算背后的力量:矩阵分解的深层影响

在现代科学的众多领域中,矩阵分解作为一种数学工具,其重要性不容小觑。特别是在物理学和计算科学中,矩阵分解不仅为理解复杂系统提供了关键的理论支撑,也...
阅读原文

大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增

机器之心报道 编辑:张倩、佳琪删除权重矩阵的一些行和列,让 LLAMA-2 70B 的参数量减少 25%,模型还能保持 99% 的零样本任务性能,同时计算效率大大提升。这...
阅读原文

Nature Physics评论:复杂系统的内在简单性

导语复杂系统是高维非线性的动力系统,其组成成分之间存在异质相互作用。为了对复杂系统的大规模行为做出可解释的预测,通常假定这些动力学可以简化为几个方...
阅读原文

超过ConvNeXt,CSWin等!上海交大提出Transformer架构新SOTA:SeTformer!

直播预告 | 1月22日晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到...
阅读原文

比A100性价比更高!FlightLLM让大模型推理不再为性能和成本同时发愁

机器之心专栏 机器之心编辑部大语言模型在端侧的规模化应用对计算性能、能效比需求的“提拽式”牵引,在算法与芯片之间,撕开了一道充分的推理竞争场。 面对想...
阅读原文

无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生实习成果

丰色 发自 凹非寺量子位 | 公众号 QbitAI一个来自MIT博士生的惊人发现: 只需对Transformer的特定层进行一种非常简单的修剪,即可在缩小模型规模的同时显著提...
阅读原文

文心4.0加持、0代码开发,自带流量的智能体平台来了!

新智元报道编辑:编辑部 【新智元导读】中国版的GPTs来了!百度「灵境矩阵」平台全新升级为「智能体平台」,开发成本大大降低,还能坐拥国内最完整的智能体生...
阅读原文

给Transformer降降秩,移除特定层90%以上组件LLM性能不减

机器之心报道 编辑:陈萍、杜伟MIT、微软联合研究:不需要额外训练,也能增强大语言模型的任务性能并降低其大小。在大模型时代,Transformer 凭一己之力撑起...
阅读原文

聊一聊AI三大核心问题:AI人才、AI产品、AI商业

夕小瑶科技说 分享来源 | 百度灵境矩阵 在生成式AI席卷全球的2023年,大模型在创造新变革的同时也给行业带来新的疑问。 当Agent、人形机器人等概念层出不穷,...
阅读原文

吞吐量提升近30倍!田渊栋团队最新论文解决大模型部署难题

新智元报道编辑:alan【新智元导读】大语言模型在实际部署中,存在内存和输入长度限制的问题。最近,田渊栋团队一举解决这两大难题,将推理系统的吞吐量提高...
阅读原文

不是大模型全局微调不起,只是LoRA更有性价比,教程已经准备好了

选自 Sebastian Raschka 博客机器之心编译编辑:佳琪这是作者 Sebastian Raschka 经过数百次实验得出的经验,值得一读。增加数据量和模型的参数量是公认的提...
阅读原文

矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见

新智元报道编辑:桃子 好困【新智元导读】Transformer大模型工作原理究竟是什么样的?一位软件工程师打开了大模型的矩阵世界。黑客帝国中,「矩阵模拟」的世...
阅读原文

清华提出 SoRA,参数量只有 LoRA 的 70%,表现更好!

夕小瑶科技说 原创作者 | 智商掉了一地、Python现在有很多关于大型语言模型(LLM)的研究,都围绕着如何高效微调展开。微调是利用模型在大规模通用数据上学到...
阅读原文