标签:权重
LLaMA开源大模型源码分析!
01LLaMA-Model在transformers仓库中可以看到llama的源码,首先是LlamaModel类,继承自PreTrainedModel,这个类是所有模型的基类,包含了一些通用的方法,比如...
给Transformer降降秩,移除特定层90%以上组件LLM性能不减
机器之心报道 编辑:陈萍、杜伟MIT、微软联合研究:不需要额外训练,也能增强大语言模型的任务性能并降低其大小。在大模型时代,Transformer 凭一己之力撑起...
ChatGPT构建离不开PyTorch,LeCun言论引热议,模型厂商不开放权重原来为此
机器之心报道 编辑:杜伟、大盘鸡其实,开源、闭源各有其道理,关键看如何抉择。这两天,有关开源的话题又火了起来。有人表示,「没有开源,AI 将一无所有,...
全面超越GPT3.5!Mistral AI发布「神秘模型」托管平台,22人估值20亿美元
创办于 5 月的法国大模型公司 Mistral AI 最近有了一系列动作。彭博社报道,Mistral 正在完成 4.87 亿美元的融资,估值 20 亿美元,其中英伟达、Salesforce ...
不到1000行代码,PyTorch团队让Llama 7B提速10倍
机器之心报道编辑:陈萍PyTorch 团队亲自教你如何加速大模型推理。在过去的一年里,生成式 AI 发展迅猛,在这当中,文本生成一直是一个特别受欢迎的领域,很...
不是大模型全局微调不起,只是LoRA更有性价比,教程已经准备好了
选自 Sebastian Raschka 博客机器之心编译编辑:佳琪这是作者 Sebastian Raschka 经过数百次实验得出的经验,值得一读。增加数据量和模型的参数量是公认的提...
Meta教你5步学会用Llama2:我见过最简单的大模型教学
机器之心报道编辑:赵阳本文是 Meta 官网推出的 Llama2 使用教学博客,简单 5 步教会你如何使用 Llama2。在这篇博客中,Meta 探讨了使用 Llama 2 的五个步骤...
S-LoRA:一个GPU运行数千大模型成为可能
机器之心报道编辑:蛋酱一般来说,大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是,当针对众多任务(如个性化助手)对 base 模型进行微调时,训...
高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读
机器之心专栏机器之心编辑部3D 人脸重建是一项广泛应用于游戏影视制作、数字人、AR/VR、人脸识别和编辑等领域的关键技术,其目标是从单张或多张图像中获取高...
开放模型权重被指将导致AI失控,Meta遭举牌抗议,LeCun:开源AI社区如火如荼
机器之心编译编辑:杜伟、小舟AI 尤其是大模型时代的开源与闭源,有利有弊,重要的是如何在使用的过程中做好文章。一直以来,人们在 AI 领域的开源与闭源选择...
更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral
机器之心专栏机器之心编辑部蚂蚁 AI Infra 团队在深度学习最核心之一的优化器方向持续投入与创新,实现了 AI 训练节约资源、加速收敛、提升泛化等目标。我们...
从零解构神经网络和ChatGPT,为什么它有效? : 大神Wolfram 3万字科技雄文
来源:图灵人工智能原文:Stephen Wolfram | 中文:Web3天空之城·城主(声明:转载本文即意味着您同意:保留以上出处,并在此处给出本公号文原链接)前言Step...
苹果创新大模型压缩技术,大模型有机会塞进手机里了
机器之心报道编辑:赵阳大模型的内容安全问题使得人们希望可以在终端设备上完成模型训练及运行。对于手机来说,大模型的权重数据显得尤为庞大。大型语言模型...
Transformer的上下文学习能力是哪来的?
机器之心报道机器之心编辑部有理论基础,我们就可以进行深度优化了。为什么 transformer 性能这么好?它给众多大语言模型带来的上下文学习 (In-Context Learn...