标签:权重

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

机器之心报道 机器之心编辑部Meta 推出 MobileLLM 系列,一款适用于移动设备上的「小」模型。「在移动设备上运行 LLM?可能需要 Meta 的一些技巧。」刚刚,图...
阅读原文

今日arXiv最热NLP大模型论文:做到头了!清华和哈工大把大模型量化做到了1比特

夕小瑶科技说 原创作者 | 谢年年在追求更高效的机器学习模型部署时,模型量化技术应运而生,它通过降低权重矩阵的位宽来显著减少大型语言模型的存储和计算需...
阅读原文

Stabilit推出Stable Diffusion 3,称效果优于同类产品

点击上方蓝字关注我们“Stability AI发布了全新的图像合成模型Stable Diffusion 3,开放了权重。该模型据称在图像和文本生成方面有显著改进。Stability首席执...
阅读原文

模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向

选自Ahead of AI 作者:Sebastian Raschka 机器之心编译 编辑:Panda还有 10 个月,2024 年还有很多期待空间。在过去的 2023 年中,大型语言模型(LLM)在潜...
阅读原文

推倒万亿参数大模型内存墙!万字长文:从第一性原理看神经网络量化

新智元报道编辑:桃子 好困 【新智元导读】为了应对大模型不断复杂的推理和训练,英伟达、AMD、英特尔、谷歌、微软、Meta、Arm、高通、MatX以及Lemurian Labs...
阅读原文

今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损

夕小瑶科技说 原创作者 | 松果、Python引言:探索大型语言模型的高效压缩方法随着大型语言模型(LLMs)在自然语言处理领域的广泛应用,它们对计算和内存资源...
阅读原文

史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训

新智元报道编辑:润 好困 【新智元导读】艾伦人工智能研究所等5机构最近公布了史上最全的开源模型「OLMo」,公开了模型的模型权重、完整训练代码、数据集和训...
阅读原文

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

机器之心专栏 机器之心编辑部融合多个异构大语言模型,中山大学、腾讯 AI Lab 推出 FuseLLM随着 LLaMA、Mistral 等大语言模型的成功,各家大厂和初创公司都纷...
阅读原文

混合专家模型Mixtral-8x7B模型挖坑指北

01前言MistralAI很高冷的给开源社区扔了一条磁力链,基于Mixture of Experts的混合专家模型Mixtral-8x7B和指令微调的Mixtral-8x7B-Instruct来了。此前曾爆料G...
阅读原文

无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生实习成果

丰色 发自 凹非寺量子位 | 公众号 QbitAI一个来自MIT博士生的惊人发现: 只需对Transformer的特定层进行一种非常简单的修剪,即可在缩小模型规模的同时显著提...
阅读原文

LLaMA开源大模型源码分析!

01LLaMA-Model在transformers仓库中可以看到llama的源码,首先是LlamaModel类,继承自PreTrainedModel,这个类是所有模型的基类,包含了一些通用的方法,比如...
阅读原文

给Transformer降降秩,移除特定层90%以上组件LLM性能不减

机器之心报道 编辑:陈萍、杜伟MIT、微软联合研究:不需要额外训练,也能增强大语言模型的任务性能并降低其大小。在大模型时代,Transformer 凭一己之力撑起...
阅读原文

ChatGPT构建离不开PyTorch,LeCun言论引热议,模型厂商不开放权重原来为此

机器之心报道 编辑:杜伟、大盘鸡其实,开源、闭源各有其道理,关键看如何抉择。这两天,有关开源的话题又火了起来。有人表示,「没有开源,AI 将一无所有,...
阅读原文

全面超越GPT3.5!Mistral AI发布「神秘模型」托管平台,22人估值20亿美元

创办于 5 月的法国大模型公司 Mistral AI 最近有了一系列动作。彭博社报道,Mistral 正在完成 4.87 亿美元的融资,估值 20 亿美元,其中英伟达、Salesforce ...
阅读原文

不到1000行代码,PyTorch团队让Llama 7B提速10倍

机器之心报道编辑:陈萍PyTorch 团队亲自教你如何加速大模型推理。在过去的一年里,生成式 AI 发展迅猛,在这当中,文本生成一直是一个特别受欢迎的领域,很...
阅读原文
14567