标签:矩阵
Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
新智元报道编辑:编辑部 【新智元导读】在开源社区引起「海啸」的Mamba架构,再次卷土重来!这次,Mamba-2顺利拿下ICML。通过统一SSM和注意力机制,Transform...
ICML2024高分!魔改注意力,让小模型能打两倍大的模型
彩云科技团队 投稿量子位 | 公众号 QbitAI改进Transformer核心机制注意力,让小模型能打两倍大的模型! ICML 2024高分论文,彩云科技团队构建DCFormer框架,...
今日arXiv最热大模型论文:LoRA又有新用途,学得少忘得也少,成持续学习关键!
夕小瑶科技说 原创作者 | Axe_越自大模型(LLM)诞生以来,苦于其高成本高消耗的训练模式,学界和业界也在努力探索更为高效的参数微调方法。其中Low-Rank Ada...
250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞
新智元报道编辑:乔杨 好困 【新智元导读】Llama 3发布一个月后,一位开发者在GitHub上创建了名为「从头开始实现Llama 3」的项目,引起了开源社区的广泛关注...
从零复现Llama3代码库爆火,大神Kapathy一键三连,GitHub狂揽2k+
西风 发自 凹非寺量子位 | 公众号 QbitAI让大神Andrej Karpathy一键三连❤️(点赞+转发+评论),一个教你从头开始实现Llama3的代码库爆火。 X上转赞收藏量超6....
LoRA数学编程任务不敌全量微调 | 哥大&Databricks新研究
克雷西 发自 凹非寺量子位 | 公众号 QbitAI大数据巨头Databricks与哥伦比亚大学最新研究发现,在数学和编程任务上,LoRA干不过全量微调。 具体来说,在这两种...
Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star
机器之心报道 编辑:杜伟、陈萍项目中代码很多很全,值得细读。一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并...
沉浸式线性代数教材,不懂哪里点哪里,网友:天花板级别
克雷西 发自 凹非寺量子位 | 公众号 QbitAI线性代数太抽象学不懂?没关系,三名来自瑞典的学者,为我们带来了沉浸式的教程。 从向量到矩阵、从概念到运算,几...
从零开始手搓GPU,照着英伟达CUDA来,只用两个星期
机器之心报道 编辑:泽南、小舟从学习芯片的基础知识开始。「我花两周时间零经验从头开始构建 GPU,这可比想象的要难多了。」总有人说老黄的芯片供不应求,大...
极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
芯片战争早已打响!谷歌15个月打造首个TPU,欲和老黄平起平坐
新智元报道编辑:alan 【新智元导读】在英伟达统治AI时代硬件的当下,谷歌的TPU却开辟了另一条道路。今天,小编带你了解第一块TPU的前世今生,同时揭开TPU架...
拿CPU搞AI推理,谁给你的底气?
金磊 梦晨 发自 凹非寺量子位 | 公众号 QbitAI大模型的训练阶段我们选择GPU,但到了推理阶段,我们果断把CPU加到了菜单上。 量子位在近期与众多行业人士交流...
清华姚班本科生两作,十年来最大改进:矩阵乘法接近理论最优
选自QuantaMagazine 机器之心编译 作者:Steve Nadis 编辑:杜伟、大盘鸡通过消除「隐藏的低效」问题,计算机科学家提出了一种比以往更快的大型矩阵相乘新方...
清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
机器之心专栏 机器之心编辑部近期,清华大学和哈尔滨工业大学联合发布了一篇论文:把大模型压缩到 1.0073 个比特时,仍然能使其保持约 83% 的性能!自从大模...