标签:大小

图解大模型训练之:流水线并行,以GPipe为例

回顾ChatGPT的发展历程,我们可以总结出大语言模型(LLM)取得惊艳效果的要点(重要性从高到低排序): 愿意烧钱,且接受“烧钱 != 好模型”的现实 高质量的训...
阅读原文

图解大模型训练之:流水线并行,以GPipe为例

回顾ChatGPT的发展历程,我们可以总结出大语言模型(LLM)取得惊艳效果的要点(重要性从高到低排序): 愿意烧钱,且接受“烧钱 != 好模型”的现实 高质量的训...
阅读原文

图解大模型训练之:流水线并行,以GPipe为例

回顾ChatGPT的发展历程,我们可以总结出大语言模型(LLM)取得惊艳效果的要点(重要性从高到低排序): 愿意烧钱,且接受“烧钱 != 好模型”的现实 高质量的训...
阅读原文

Mistral多模态大模型来了!120亿参数,原生支持任意大小/数量图像,公司估值已达420亿

明敏 发自 凹非寺量子位 | 公众号 QbitAIMistral的多模态大模型来了! Pixtral 12B正式发布,同时具备语言和视觉处理能力。 它建立在文本模型Nemo 12B基础上...
阅读原文

数据集汇总丨萝卜快跑明年盈利?自动驾驶开启「端到端」新时代,高质量数据集助力 AI 大模型上车

作者:李姝 编辑:李姝 自动驾驶开启「端到端」新时代,高质量数据集扮演重要角色。对此,HyperAI超神经为大家汇总了热门开源的自动驾驶数据集,快来收藏使用...
阅读原文

MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

新智元报道编辑:编辑部 【新智元导读】MoE已然成为AI界的主流架构,不论是开源Grok,还是闭源GPT-4,皆是其拥趸。然而,这些模型的专家,最大数量仅有32个。...
阅读原文

开发者狂喜!Meta最新发布的LLM Compiler,实现77%自动调优效率

机器之心报道 编辑:山茶花Meta搞了个很牛的LLM Compiler,帮助程序员更高效地写代码。昨天,三大 AI 巨头 OpenAI、Google、Meta 组团发布自家大模型最新研究...
阅读原文

Intel入局大模型,烧钱搜索130亿种网络结构,让LLaMa2瘦身30%

夕小瑶科技说 原创作者 | 任同学大语言模型在多个领域大放异彩,但它们的高内存和计算成本限制了广泛使用。神经架构搜索(NAS)能自动找到最优模型架构,减少...
阅读原文

用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高

机器之心报道 编辑:Panda用神经架构搜索给 LLM 瘦身,同等准确度可让 LLaMA2-7B 模型大小降 2 倍。大型语言模型(LLM)的一个主要特点是「大」,也因此其训...
阅读原文

【图像分割数据集汇总】字节发布 COCONut 入选 CVPR 2024,立即体验 Segment Anything 分割万物!

随着计算机视觉技术的不断发展,图像分割在诸多领域展现出重要的应用价值。近年来,各种图像分割数据集如雨后春笋般涌现。上个月,字节跳动发布了首个大规模...
阅读原文

大模型一定就比小模型好?谷歌的这项研究说不一定

机器之心报道 编辑:Panda在这个大模型不断创造新成就的时代,我们通常对机器学习模型有一个直观认知:越大越好。但事实果真如此吗? 近日,Google Research ...
阅读原文

3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了

明敏 发自 凹非寺量子位 | 公众号 QbitAI马斯克说到做到开源Grok-1,开源社区一片狂喜。 但基于Grok-1做改动or商用,都还有点难题: Grok-1使用Rust+JAX构建...
阅读原文

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

鱼羊 克雷西 发自 凹非寺量子位 | 公众号 QbitAI马斯克说到做到: 旗下大模型Grok现已开源! 代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是...
阅读原文

DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压

新智元报道编辑:编辑部 【新智元导读】线性RNN赢了?近日,谷歌DeepMind一口气推出两大新架构,在d基准测试中超越了Transformer。新架构不仅保证了高效的训...
阅读原文

Mistral AI:探索LLM推理的吞吐、时延及成本空间

作者 |Timothée Lacroix OneFlow编译 翻译|宛子琳、杨婷 选择正确的 LLM 推理栈意味着选择适合你的任务的正确模型,并配以适当的推理代码在适当的硬件上运行...
阅读原文
12