标签：矩阵

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

新智元报道编辑：编辑部【新智元导读】在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transform...

阅读原文

AIGC动态

1年前 (2024)

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

彩云科技团队投稿量子位 | 公众号 QbitAI改进Transformer核心机制注意力，让小模型能打两倍大的模型！ ICML 2024高分论文，彩云科技团队构建DCFormer框架，...

阅读原文

AIGC动态

1年前 (2024)

今日arXiv最热大模型论文：LoRA又有新用途，学得少忘得也少，成持续学习关键！

夕小瑶科技说原创作者 | Axe_越自大模型（LLM）诞生以来，苦于其高成本高消耗的训练模式，学界和业界也在努力探索更为高效的参数微调方法。其中Low-Rank Ada...

阅读原文

AIGC动态

1年前 (2024)

250行代码从头搭建Llama 3，GitHub一天4.6k星！Karpathy大赞

新智元报道编辑：乔杨好困【新智元导读】Llama 3发布一个月后，一位开发者在GitHub上创建了名为「从头开始实现Llama 3」的项目，引起了开源社区的广泛关注...

阅读原文

AIGC动态

1年前 (2024)

从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

西风发自凹非寺量子位 | 公众号 QbitAI让大神Andrej Karpathy一键三连❤️（点赞+转发+评论），一个教你从头开始实现Llama3的代码库爆火。 X上转赞收藏量超6....

阅读原文

AIGC动态

1年前 (2024)

LoRA数学编程任务不敌全量微调 | 哥大&Databricks新研究

克雷西发自凹非寺量子位 | 公众号 QbitAI大数据巨头Databricks与哥伦比亚大学最新研究发现，在数学和编程任务上，LoRA干不过全量微调。具体来说，在这两种...

阅读原文

AIGC动态

1年前 (2024)

Karpathy称赞，从零实现LLaMa3项目爆火，半天1.5k star

机器之心报道编辑：杜伟、陈萍项目中代码很多很全，值得细读。一个月前，Meta 发布了开源大模型 llama3 系列，在多个关键基准测试中优于业界 SOTA 模型，并...

阅读原文

AIGC动态

1年前 (2024)

沉浸式线性代数教材，不懂哪里点哪里，网友：天花板级别

克雷西发自凹非寺量子位 | 公众号 QbitAI线性代数太抽象学不懂？没关系，三名来自瑞典的学者，为我们带来了沉浸式的教程。从向量到矩阵、从概念到运算，几...

阅读原文

AIGC动态

1年前 (2024)

从零开始手搓GPU，照着英伟达CUDA来，只用两个星期

机器之心报道编辑：泽南、小舟从学习芯片的基础知识开始。「我花两周时间零经验从头开始构建 GPU，这可比想象的要难多了。」总有人说老黄的芯片供不应求，大...

阅读原文

AIGC动态

1年前 (2024)

北京车展 | 超跑 SUPER 9 细节实拍！方程豹全矩阵亮相北京车展

北京车展 | 超跑 SUPER 9 细节实拍！方程豹全矩阵亮相北京车展 , 2024-04-2619:18 , ,…

阅读原文

AIGC动态

2年前 (2024)

极长序列、极快速度：面向新一代高效大语言模型的LASP序列并行

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

芯片战争早已打响！谷歌15个月打造首个TPU，欲和老黄平起平坐

新智元报道编辑：alan 【新智元导读】在英伟达统治AI时代硬件的当下，谷歌的TPU却开辟了另一条道路。今天，小编带你了解第一块TPU的前世今生，同时揭开TPU架...

阅读原文

AIGC动态

2年前 (2024)

拿CPU搞AI推理，谁给你的底气？

金磊梦晨发自凹非寺量子位 | 公众号 QbitAI大模型的训练阶段我们选择GPU，但到了推理阶段，我们果断把CPU加到了菜单上。量子位在近期与众多行业人士交流...

阅读原文

AIGC动态

2年前 (2024)

清华姚班本科生两作，十年来最大改进：矩阵乘法接近理论最优

选自QuantaMagazine 机器之心编译作者：Steve Nadis 编辑：杜伟、大盘鸡通过消除「隐藏的低效」问题，计算机科学家提出了一种比以往更快的大型矩阵相乘新方...

阅读原文

AIGC动态

2年前 (2024)

清华、哈工大把大模型压缩到了1bit，把大模型放在手机里跑的愿望就快要实现了！

机器之心专栏机器之心编辑部近期，清华大学和哈尔滨工业大学联合发布了一篇论文：把大模型压缩到 1.0073 个比特时，仍然能使其保持约 83% 的性能！自从大模...

阅读原文

AIGC动态

2年前 (2024)

1 234 5