标签:张量
TensorRT-LLM保姆级教程(一)-快速入门
随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。因此,市面上也出现...
如果大爆炸不是有史以来的第一次,那是什么导致了它发生?
来源:科技世代千高原 许多持反对态度的人对宇宙膨胀的发生提出质疑。但证据表明事实并非如此。 不断膨胀的宇宙充满了星系和我们今天观察到的复杂结构,它起...
Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效
机器之心发布 机器之心编辑部伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkp...
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
新智元报道编辑:编辑部 【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了!马斯克19天建成由10万块H100串联的世界最大超算,已全力投入Grok 3的训练...
斯坦福博士图解AlphaFold 3:超多细节+可视化还原ML工程师眼中的AF3
新智元报道编辑:乔杨 庸庸 【新智元导读】AlphaFold 3的论文太晦涩?没关系,斯坦福大学的两位博士生「图解」AlphaFold 3 ,将模型架构可视化,同时不遗漏任...
只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软
克雷西 发自 凹非寺量子位 | 公众号 QbitAI只需激活60%的参数,就能实现与全激活稠密模型相当的性能。 微软亚洲研究院的一项新研究,实现了模型的完全稀疏激...
参数少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微调框架FLoRA
Huiser 投稿量子位 | 公众号 QbitAI为了让大模型在特定任务、场景下发挥更大作用,LoRA这样能够平衡性能和算力资源的方法正在受到研究者们的青睐。 然而,以L...
AI真·炼丹:整整14天,无需人类参与
金磊 梦晨 发自 凹非寺量子位 | 公众号 QbitAI现在制药这事,人类要靠边站了。 坐标苏州,这是一个1600平的制药实验室,它的“打开方式”是这样的: 门口,没有...
史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造
机器之心报道 编辑:泽南、杜伟生成式 AI 推理性价比是 GPU 的 140 倍。大模型时代,全球都缺算力,买铲子的英伟达市值被炒上了天。 现在,终于有一家公司带...
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
机器之心发布 作者:李师尧(无问芯穹TechView)基于 Transformer架构的大型语言模型在各种基准测试中展现出优异性能,但数百亿、千亿乃至万亿量级的参数规模...
这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单
机器之心报道 编辑:Panda随着大型语言模型(LLM)规模不断增大,其性能也在不断提升。尽管如此,LLM 依然面临着一个关键难题:与人类的价值和意图对齐。在解...
斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快
西风 发自 凹非寺量子位 | 公众号 QbitAIAI算力资源越发紧张的当下,斯坦福新研究将GPU运行效率再提升一波—— 内核只有100行代码,让H100比使用FlashAttention...
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
机器之心报道 机器之心编辑部自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。 但随着模型规模的扩展和需要处...
只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架
机器之心报道 机器之心编辑部提高 GPU 利用率,就是这么简单。AI 的快速发展,伴随而来的是大计算量。这就自然而然的引出了一个问题:如何减少 AI 对计算的需...
热归热,Groq离取代英伟达GPU有多远?
来源:节选自2024 年 Week08业内通讯2024 年 4 月 20日,即 Meta 开源 Llama 3 的隔天,初创公司Groq 宣布其 LPU 推理引擎已部署 Llama 3 的 8B 和 70B 版本...
12