标签:矩阵
LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
这一次,国产光计算芯片走到了商业化的临界点|甲子光年
光计算芯片行业的水温,正在发生变化。作者|八度 编辑|王博 “集成光路将是半导体领域60年一遇的‘换道超车’。” 去年底,在2023全球硬科技创新大会上发布的...
Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍
新智元报道编辑:编辑部 【新智元导读】时隔一年,FlashAttention又推出了第三代更新,专门针对H100 GPU的新特性进行优化,在之前的基础上又实现了1.5~2倍的...
英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%
机器之心报道 编辑:陈陈、小舟740 TFLOPS!迄今最强 FlashAttention 来了。随着大型语言模型(LLM)加速落地,扩展模型上下文窗口变得越来越重要。然而,Tra...
H100利用率飙升至75%!英伟达亲自下场FlashAttention三代升级,比标准注意力快16倍
明敏 克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型训练推理神作,又更新了! 主流大模型都在用的FlashAttention,刚刚升级第三代。 时隔一年,FlashAtten...
Google AI:构建未来智能世界的创新引擎
谷歌作为全球领先的科技公司,在 AI 领域拥有深厚的积累和卓越的创新能力,在谷歌眼里,生成式 AI 带来了哪些机会?Google AI 是如何在谷歌产品中落地的?Goo...
MATLAB四十周年:一场数学的“矩阵革命”|甲子光年
一家公司如何保持40年的创新力?作者|赵健 如果提到MathWorks这家公司,可能很多人都没听过。但若提起MATLAB,很多科研、工程领域的从业者,一定对它不陌...
“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?
金磊 梦晨 发自 凹非寺量子位 | 公众号 QbitAI一个“技术问题”,导致巴菲特的伯克希尔-哈撒韦公司股价暴跌近100%。 想必很多小伙伴已经感受过了这则铺天盖地的...
SSM 能取代 Transformer 搞出更「牛」的大模型吗?
机器之心PRO · 会员通讯 Week 23---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. SSM 能取代 Transformer 搞出更「牛」的大模型吗? SSM ...
Mamba-2:超越 Transformer 的新架构,训练效率大幅提升!
机器之心报道 来源:机器学习算法与Python学习自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规...
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
机器之心报道 机器之心编辑部自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规模的扩展和需要处...
新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2,状态空间扩大8倍,训练速度提高50%! 更重要的是,团...
Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
新智元报道编辑:编辑部 【新智元导读】在开源社区引起「海啸」的Mamba架构,再次卷土重来!这次,Mamba-2顺利拿下ICML。通过统一SSM和注意力机制,Transform...
ICML2024高分!魔改注意力,让小模型能打两倍大的模型
彩云科技团队 投稿量子位 | 公众号 QbitAI改进Transformer核心机制注意力,让小模型能打两倍大的模型! ICML 2024高分论文,彩云科技团队构建DCFormer框架,...
今日arXiv最热大模型论文:LoRA又有新用途,学得少忘得也少,成持续学习关键!
夕小瑶科技说 原创作者 | Axe_越自大模型(LLM)诞生以来,苦于其高成本高消耗的训练模式,学界和业界也在努力探索更为高效的参数微调方法。其中Low-Rank Ada...