标签:张量
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
机器之心报道 机器之心编辑部自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规模的扩展和需要处...
只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架
机器之心报道 机器之心编辑部提高 GPU 利用率,就是这么简单。AI 的快速发展,伴随而来的是大计算量。这就自然而然的引出了一个问题:如何减少 AI 对计算的需...
热归热,Groq离取代英伟达GPU有多远?
来源:节选自2024 年 Week08业内通讯2024 年 4 月 20日,即 Meta 开源 Llama 3 的隔天,初创公司Groq 宣布其 LPU 推理引擎已部署 Llama 3 的 8B 和 70B 版本...
比 GPT-4 快 18 倍、自研芯片比英伟达 GPU 快 10 倍的 Groq,能否撼动英伟达?
这两天国内外人工智能圈子都在热议 Groq:这个硅谷公司的产品基于自研芯片可以做到在大模型推理时每秒处理将近 500 个 token。 500 个 token 什么概念,大概...
如何防止模型被窃取?基于TVM的端上模型部署加密方案
大数据文摘受权转载自云鼎实验室 2023年在AI的发展史上一定是浓墨重彩的一笔,在这一年里出现了百模大战、全民“炼丹”的场面,围绕着各种模型的训练技术和算力...
吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了
机器之心报道 机器之心编辑部大型语言模型 (LLM) 越来越多地用于需要多个链式生成调用、高级 prompt 技术、控制流以及与外部环境交互的复杂任务。然而,用于...
LLaMA开源大模型源码分析!
01LLaMA-Model在transformers仓库中可以看到llama的源码,首先是LlamaModel类,继承自PreTrainedModel,这个类是所有模型的基类,包含了一些通用的方法,比如...
显存瓶颈被打破!大模型训练的黑科技来了,带宽不再制约大模型训练
夕小瑶科技说 原创作者 | 卖萌酱 大家好,我是卖萌酱。 来一个快问快答,如何使用性能有限的GPU卡从头训练出一个ChatGPT? 在目前,随着模型参数量不断暴涨,...
戴琼海院士:开源风波后在 AlpacaEval 直追 GPT4,零一靠技术如何重建生态信心
来源:AI科技大本营斯坦福大学研发的大语言模型评测 AlpacaEval Leaderboard 备受业内认可,在 2023 年 12 月 7 日 更新的排行榜中,Yi-34B-Chat 以 94.08% ...
不到1000行代码,PyTorch团队让Llama 7B提速10倍
机器之心报道编辑:陈萍PyTorch 团队亲自教你如何加速大模型推理。在过去的一年里,生成式 AI 发展迅猛,在这当中,文本生成一直是一个特别受欢迎的领域,很...
PyTorch造大模型“加速包”,不到1000行代码提速10倍!英伟达科学家:minGPT以来最好的教程式repo之一
西风 发自 凹非寺量子位 | 公众号 QbitAIPyTorch团队让大模型推理速度加快了10倍。且只用了不到1000行的纯原生PyTorch代码!项目名为GPT-fast,加速效果观感...
PyTorch团队重写「分割一切」模型,比原始实现快8倍
机器之心报道编辑:陈萍我们该如何优化 Meta 的「分割一切」模型,PyTorch 团队撰写的这篇博客由浅入深的帮你解答。从年初到现在,生成式 AI 发展迅猛。但很...
S-LoRA:一个GPU运行数千大模型成为可能
机器之心报道编辑:蛋酱一般来说,大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是,当针对众多任务(如个性化助手)对 base 模型进行微调时,训...
李开复旗下340亿参数开源大模型被指“套壳LLaMA”,最新回应来了!
整理 | 凌敏、核子可乐 有网友在 Twitter 上评价道:“这就是中国大模型的现状?”李开复的 Yi-34B被指是对 LLaMA 的重构近日,国外开发者 ehartford 在开源大...
基于LLaMA却改张量名,李开复公司大模型引争议,官方回应来了
机器之心报道机器之心编辑部有研究者发现,李开复「零一万物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。对此,「零一万物」给出...