标签:权重
今日arXiv最热NLP大模型论文:做到头了!清华和哈工大把大模型量化做到了1比特
夕小瑶科技说 原创作者 | 谢年年在追求更高效的机器学习模型部署时,模型量化技术应运而生,它通过降低权重矩阵的位宽来显著减少大型语言模型的存储和计算需...
Stabilit推出Stable Diffusion 3,称效果优于同类产品
点击上方蓝字关注我们“Stability AI发布了全新的图像合成模型Stable Diffusion 3,开放了权重。该模型据称在图像和文本生成方面有显著改进。Stability首席执...
模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向
选自Ahead of AI 作者:Sebastian Raschka 机器之心编译 编辑:Panda还有 10 个月,2024 年还有很多期待空间。在过去的 2023 年中,大型语言模型(LLM)在潜...
推倒万亿参数大模型内存墙!万字长文:从第一性原理看神经网络量化
新智元报道编辑:桃子 好困 【新智元导读】为了应对大模型不断复杂的推理和训练,英伟达、AMD、英特尔、谷歌、微软、Meta、Arm、高通、MatX以及Lemurian Labs...
今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损
夕小瑶科技说 原创作者 | 松果、Python引言:探索大型语言模型的高效压缩方法随着大型语言模型(LLMs)在自然语言处理领域的广泛应用,它们对计算和内存资源...
史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训
新智元报道编辑:润 好困 【新智元导读】艾伦人工智能研究所等5机构最近公布了史上最全的开源模型「OLMo」,公开了模型的模型权重、完整训练代码、数据集和训...
Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效
机器之心专栏 机器之心编辑部融合多个异构大语言模型,中山大学、腾讯 AI Lab 推出 FuseLLM随着 LLaMA、Mistral 等大语言模型的成功,各家大厂和初创公司都纷...
混合专家模型Mixtral-8x7B模型挖坑指北
01前言MistralAI很高冷的给开源社区扔了一条磁力链,基于Mixture of Experts的混合专家模型Mixtral-8x7B和指令微调的Mixtral-8x7B-Instruct来了。此前曾爆料G...
无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生实习成果
丰色 发自 凹非寺量子位 | 公众号 QbitAI一个来自MIT博士生的惊人发现: 只需对Transformer的特定层进行一种非常简单的修剪,即可在缩小模型规模的同时显著提...
LLaMA开源大模型源码分析!
01LLaMA-Model在transformers仓库中可以看到llama的源码,首先是LlamaModel类,继承自PreTrainedModel,这个类是所有模型的基类,包含了一些通用的方法,比如...
给Transformer降降秩,移除特定层90%以上组件LLM性能不减
机器之心报道 编辑:陈萍、杜伟MIT、微软联合研究:不需要额外训练,也能增强大语言模型的任务性能并降低其大小。在大模型时代,Transformer 凭一己之力撑起...
ChatGPT构建离不开PyTorch,LeCun言论引热议,模型厂商不开放权重原来为此
机器之心报道 编辑:杜伟、大盘鸡其实,开源、闭源各有其道理,关键看如何抉择。这两天,有关开源的话题又火了起来。有人表示,「没有开源,AI 将一无所有,...
全面超越GPT3.5!Mistral AI发布「神秘模型」托管平台,22人估值20亿美元
创办于 5 月的法国大模型公司 Mistral AI 最近有了一系列动作。彭博社报道,Mistral 正在完成 4.87 亿美元的融资,估值 20 亿美元,其中英伟达、Salesforce ...
不到1000行代码,PyTorch团队让Llama 7B提速10倍
机器之心报道编辑:陈萍PyTorch 团队亲自教你如何加速大模型推理。在过去的一年里,生成式 AI 发展迅猛,在这当中,文本生成一直是一个特别受欢迎的领域,很...
不是大模型全局微调不起,只是LoRA更有性价比,教程已经准备好了
选自 Sebastian Raschka 博客机器之心编译编辑:佳琪这是作者 Sebastian Raschka 经过数百次实验得出的经验,值得一读。增加数据量和模型的参数量是公认的提...