标签:乘法

PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代

新智元报道编辑:乔杨 Frey 【新智元导读】用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA...
阅读原文

大模型终端部署新趋势:硬件直接支持混合矩阵乘法

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍

新智元报道编辑:编辑部 【新智元导读】时隔一年,FlashAttention又推出了第三代更新,专门针对H100 GPU的新特性进行优化,在之前的基础上又实现了1.5~2倍的...
阅读原文

H100利用率飙升至75%!英伟达亲自下场FlashAttention三代升级,比标准注意力快16倍

明敏 克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型训练推理神作,又更新了! 主流大模型都在用的FlashAttention,刚刚升级第三代。 时隔一年,FlashAtten...
阅读原文

Llama 3上线4天,井喷1000多个变种!中文版也有了!Groq上推理速度800token每秒

大数据文摘授权自夕小瑶科技说作者:Zicy 4月19号,Meta发布了其最新的大型语言模型Llama 3的早期版本,反响热烈,短短4天,就有了1000多个变种,而且这个数...
阅读原文

Llama 3 上线4天,井喷1000多个变种!中文版也有了!Groq上推理速度800token每秒

夕小瑶科技说 原创作者 | Zicy4月19号,Meta发布了其最新的大型语言模型Llama 3的早期版本,反响热烈,短短4天,就有了1000多个变种,而且这个数字还在持续增...
阅读原文

芯片战争早已打响!谷歌15个月打造首个TPU,欲和老黄平起平坐

新智元报道编辑:alan 【新智元导读】在英伟达统治AI时代硬件的当下,谷歌的TPU却开辟了另一条道路。今天,小编带你了解第一块TPU的前世今生,同时揭开TPU架...
阅读原文

清华姚班本科生连发两作,十年来最大改进:矩阵乘法接近理论最优

选自QuantaMagazine 机器之心编译 作者:Steve Nadis 编辑:杜伟、大盘鸡通过消除「隐藏的低效」问题,计算机科学家提出了一种比以往更快的大型矩阵相乘新方...
阅读原文

PyTorch团队重写「分割一切」模型,比原始实现快8倍

机器之心报道编辑:陈萍我们该如何优化 Meta 的「分割一切」模型,PyTorch 团队撰写的这篇博客由浅入深的帮你解答。从年初到现在,生成式 AI 发展迅猛。但很...
阅读原文

1个token终结LLM数字编码难题!九大机构联合发布xVal:训练集没有的数字也能预测!

新智元报道编辑:LRS【新智元导读】LLM的文科脑终于理解数字空间是连续的了,只需一个特殊的[NUM]即可表征所有数字,不仅效率更高,泛化性能也更强!虽然大型...
阅读原文

OpenAI科学家最新大语言模型演讲火了,洞见LLM成功的关键

机器之心报道选自 YouTube编辑:Panda从涌现和扩展律到指令微调和 RLHF,OpenAI 科学家带你进入 LLM的世界。近日,OpenAI 研究科学家 Hyung Won Chung 在首尔...
阅读原文

以3D视角洞悉矩阵乘法,这就是AI思考的样子

选自PyTorch机器之心编译如果能以 3D 方式展示矩阵乘法的执行过程,当年学习矩阵乘法时也就不会那么吃力了。现如今,矩阵乘法已经成为机器学习模型的构建模块...
阅读原文

矩阵成真!Pytorch最新工具mm,3D可视化矩阵乘法、Transformer注意力

新智元报道编辑:桃子【新智元导读】Pytorch团队推出的最新3D可视化最新工具mm,能够将矩阵乘法模拟世界还原。矩阵中的模拟世界,真的来了。矩阵乘法(matmul...
阅读原文