标签:张量

斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快

西风 发自 凹非寺量子位 | 公众号 QbitAIAI算力资源越发紧张的当下,斯坦福新研究将GPU运行效率再提升一波—— 内核只有100行代码,让H100比使用FlashAttention...
阅读原文

再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升

机器之心报道 机器之心编辑部自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规模的扩展和需要处...
阅读原文

只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架

机器之心报道 机器之心编辑部提高 GPU 利用率,就是这么简单。AI 的快速发展,伴随而来的是大计算量。这就自然而然的引出了一个问题:如何减少 AI 对计算的需...
阅读原文

热归热,Groq离取代英伟达GPU有多远?

来源:节选自2024 年 Week08业内通讯2024 年 4 月 20日,即 Meta 开源 Llama 3 的隔天,初创公司Groq 宣布其 LPU 推理引擎已部署 Llama 3 的 8B 和 70B 版本...
阅读原文

比 GPT-4 快 18 倍、自研芯片比英伟达 GPU 快 10 倍的 Groq,能否撼动英伟达?

这两天国内外人工智能圈子都在热议 Groq:这个硅谷公司的产品基于自研芯片可以做到在大模型推理时每秒处理将近 500 个 token。 500 个 token 什么概念,大概...
阅读原文

如何防止模型被窃取?基于TVM的端上模型部署加密方案

大数据文摘受权转载自云鼎实验室 2023年在AI的发展史上一定是浓墨重彩的一笔,在这一年里出现了百模大战、全民“炼丹”的场面,围绕着各种模型的训练技术和算力...
阅读原文

吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了

机器之心报道 机器之心编辑部大型语言模型 (LLM) 越来越多地用于需要多个链式生成调用、高级 prompt 技术、控制流以及与外部环境交互的复杂任务。然而,用于...
阅读原文

LLaMA开源大模型源码分析!

01LLaMA-Model在transformers仓库中可以看到llama的源码,首先是LlamaModel类,继承自PreTrainedModel,这个类是所有模型的基类,包含了一些通用的方法,比如...
阅读原文

显存瓶颈被打破!大模型训练的黑科技来了,带宽不再制约大模型训练

夕小瑶科技说 原创作者 | 卖萌酱 大家好,我是卖萌酱。 来一个快问快答,如何使用性能有限的GPU卡从头训练出一个ChatGPT? 在目前,随着模型参数量不断暴涨,...
阅读原文

戴琼海院士:开源风波后在 AlpacaEval 直追 GPT4,零一靠技术如何重建生态信心

来源:AI科技大本营斯坦福大学研发的大语言模型评测 AlpacaEval Leaderboard 备受业内认可,在 2023 年 12 月 7 日 更新的排行榜中,Yi-34B-Chat 以 94.08% ...
阅读原文

不到1000行代码,PyTorch团队让Llama 7B提速10倍

机器之心报道编辑:陈萍PyTorch 团队亲自教你如何加速大模型推理。在过去的一年里,生成式 AI 发展迅猛,在这当中,文本生成一直是一个特别受欢迎的领域,很...
阅读原文

PyTorch造大模型“加速包”,不到1000行代码提速10倍!英伟达科学家:minGPT以来最好的教程式repo之一

西风 发自 凹非寺量子位 | 公众号 QbitAIPyTorch团队让大模型推理速度加快了10倍。且只用了不到1000行的纯原生PyTorch代码!项目名为GPT-fast,加速效果观感...
阅读原文

PyTorch团队重写「分割一切」模型,比原始实现快8倍

机器之心报道编辑:陈萍我们该如何优化 Meta 的「分割一切」模型,PyTorch 团队撰写的这篇博客由浅入深的帮你解答。从年初到现在,生成式 AI 发展迅猛。但很...
阅读原文

S-LoRA:一个GPU运行数千大模型成为可能

机器之心报道编辑:蛋酱一般来说,大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是,当针对众多任务(如个性化助手)对 base 模型进行微调时,训...
阅读原文

李开复旗下340亿参数开源大模型被指“套壳LLaMA”,最新回应来了!

整理 | 凌敏、核子可乐 有网友在 Twitter 上评价道:“这就是中国大模型的现状?”李开复的 Yi-34B被指是对 LLaMA 的重构近日,国外开发者 ehartford 在开源大...
阅读原文
123