标签:矩阵
CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源
新智元报道编辑:LRST 好困 【新智元导读】T-MAC是一种创新的基于查找表(LUT)的方法,专为在CPU上高效执行低比特大型语言模型(LLMs)推理而设计,无需权重...
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
微软亚洲研究院 投稿量子位 | 公众号 QbitAI有CPU就能跑大模型,性能甚至超过NPU/GPU! 没错,为了优化模型端侧部署,微软亚洲研究院提出了一种新技术——T-MAC...
仅微调0.02%参数,性能接近全量微调!上交大推出高效微调统一新范式
ChouJay 投稿量子位 | 公众号 QbitAIScaling Laws当道,但随着大模型应用的发展,基础模型不断扩大的参数也成了令开发者们头疼的问题。 为了减轻训练负担,Ad...
LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
这一次,国产光计算芯片走到了商业化的临界点|甲子光年
光计算芯片行业的水温,正在发生变化。作者|八度 编辑|王博 “集成光路将是半导体领域60年一遇的‘换道超车’。” 去年底,在2023全球硬科技创新大会上发布的...
Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍
新智元报道编辑:编辑部 【新智元导读】时隔一年,FlashAttention又推出了第三代更新,专门针对H100 GPU的新特性进行优化,在之前的基础上又实现了1.5~2倍的...
英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%
机器之心报道 编辑:陈陈、小舟740 TFLOPS!迄今最强 FlashAttention 来了。随着大型语言模型(LLM)加速落地,扩展模型上下文窗口变得越来越重要。然而,Tra...
H100利用率飙升至75%!英伟达亲自下场FlashAttention三代升级,比标准注意力快16倍
明敏 克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型训练推理神作,又更新了! 主流大模型都在用的FlashAttention,刚刚升级第三代。 时隔一年,FlashAtten...
Google AI:构建未来智能世界的创新引擎
谷歌作为全球领先的科技公司,在 AI 领域拥有深厚的积累和卓越的创新能力,在谷歌眼里,生成式 AI 带来了哪些机会?Google AI 是如何在谷歌产品中落地的?Goo...
MATLAB四十:一场数学的“矩阵”|甲子光年
一家公司如何保持40年的创新力?作者|赵健 如果提到MathWorks这家公司,可能很多人都没听过。但若提起MATLAB,很多科研、工程领域的从业者,一定对它不陌...
“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?
金磊 梦晨 发自 凹非寺量子位 | 公众号 QbitAI一个“技术问题”,导致巴菲特的伯克希尔-哈撒韦公司股价暴跌近100%。 想必很多小伙伴已经感受过了这则铺天盖地的...
SSM 能取代 Transformer 搞出更「牛」的大模型吗?
机器之心PRO · 会员通讯 Week 23---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. SSM 能取代 Transformer 搞出更「牛」的大模型吗? SSM ...
Mamba-2:超越 Transformer 的新架构,训练效率大幅提升!
机器之心报道 来源:机器学习算法与Python学习自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规...
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
机器之心报道 机器之心编辑部自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规模的扩展和需要处...
新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2,状态空间扩大8倍,训练速度提高50%! 更重要的是,团...