标签:张量

TensorRT-LLM保姆级教程(一)-快速入门

随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。因此,市面上也出现...
阅读原文

如果大爆炸不是有史以来的第一次,那是什么导致了它发生?

来源:科技世代千高原 许多持反对态度的人对宇宙膨胀的发生提出质疑。但证据表明事实并非如此。 不断膨胀的宇宙充满了星系和我们今天观察到的复杂结构,它起...
阅读原文

Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

机器之心发布 机器之心编辑部伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkp...
阅读原文

GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?

新智元报道编辑:编辑部 【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了!马斯克19天建成由10万块H100串联的世界最大超算,已全力投入Grok 3的训练...
阅读原文

斯坦福博士图解AlphaFold 3:超多细节+可视化还原ML工程师眼中的AF3

新智元报道编辑:乔杨 庸庸 【新智元导读】AlphaFold 3的论文太晦涩?没关系,斯坦福大学的两位博士生「图解」AlphaFold 3 ,将模型架构可视化,同时不遗漏任...
阅读原文

只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软

克雷西 发自 凹非寺量子位 | 公众号 QbitAI只需激活60%的参数,就能实现与全激活稠密模型相当的性能。 微软亚洲研究院的一项新研究,实现了模型的完全稀疏激...
阅读原文

参数少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微调框架FLoRA

Huiser 投稿量子位 | 公众号 QbitAI为了让大模型在特定任务、场景下发挥更大作用,LoRA这样能够平衡性能和算力资源的方法正在受到研究者们的青睐。 然而,以L...
阅读原文

AI真·炼丹:整整14天,无需人类参与

金磊 梦晨 发自 凹非寺量子位 | 公众号 QbitAI现在制药这事,人类要靠边站了。 坐标苏州,这是一个1600平的制药实验室,它的“打开方式”是这样的: 门口,没有...
阅读原文

史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造

机器之心报道 编辑:泽南、杜伟生成式 AI 推理性价比是 GPU 的 140 倍。大模型时代,全球都缺算力,买铲子的英伟达市值被炒上了天。 现在,终于有一家公司带...
阅读原文

大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度

机器之心发布 作者:李师尧(无问芯穹TechView)基于 Transformer架构的大型语言模型在各种基准测试中展现出优异性能,但数百亿、千亿乃至万亿量级的参数规模...
阅读原文

这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单

机器之心报道 编辑:Panda随着大型语言模型(LLM)规模不断增大,其性能也在不断提升。尽管如此,LLM 依然面临着一个关键难题:与人类的价值和意图对齐。在解...
阅读原文

斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快

西风 发自 凹非寺量子位 | 公众号 QbitAIAI算力资源越发紧张的当下,斯坦福新研究将GPU运行效率再提升一波—— 内核只有100行代码,让H100比使用FlashAttention...
阅读原文

再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升

机器之心报道 机器之心编辑部自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规模的扩展和需要处...
阅读原文

只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架

机器之心报道 机器之心编辑部提高 GPU 利用率,就是这么简单。AI 的快速发展,伴随而来的是大计算量。这就自然而然的引出了一个问题:如何减少 AI 对计算的需...
阅读原文

热归热,Groq离取代英伟达GPU有多远?

来源:节选自2024 年 Week08业内通讯2024 年 4 月 20日,即 Meta 开源 Llama 3 的隔天,初创公司Groq 宣布其 LPU 推理引擎已部署 Llama 3 的 8B 和 70B 版本...
阅读原文
12