标签:权重

S-LoRA:一个GPU运行数千大模型成为可能

机器之心报道编辑:蛋酱一般来说,大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是,当针对众多任务(如个性化助手)对 base 模型进行微调时,训...
阅读原文

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

机器之心专栏机器之心编辑部3D 人脸重建是一项广泛应用于游戏影视制作、数字人、AR/VR、人脸识别和编辑等领域的关键技术,其目标是从单张或多张图像中获取高...
阅读原文

开放模型权重被指将导致AI失控,Meta遭举牌抗议,LeCun:开源AI社区如火如荼

机器之心编译编辑:杜伟、小舟AI 尤其是大模型时代的开源与闭源,有利有弊,重要的是如何在使用的过程中做好文章。一直以来,人们在 AI 领域的开源与闭源选择...
阅读原文

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

机器之心专栏机器之心编辑部蚂蚁 AI Infra 团队在深度学习最核心之一的优化器方向持续投入与创新,实现了 AI 训练节约资源、加速收敛、提升泛化等目标。我们...
阅读原文

从零解构神经网络和ChatGPT,为什么它有效? : 大神Wolfram 3万字科技雄文

来源:图灵人工智能原文:Stephen Wolfram | 中文:Web3天空之城·城主(声明:转载本文即意味着您同意:保留以上出处,并在此处给出本公号文原链接)前言Step...
阅读原文

苹果创新大模型压缩技术,大模型有机会塞进手机里了

机器之心报道编辑:赵阳大模型的内容安全问题使得人们希望可以在终端设备上完成模型训练及运行。对于手机来说,大模型的权重数据显得尤为庞大。大型语言模型...
阅读原文

Transformer的上下文学习能力是哪来的?

机器之心报道机器之心编辑部有理论基础,我们就可以进行深度优化了。为什么 transformer 性能这么好?它给众多大语言模型带来的上下文学习 (In-Context Learn...
阅读原文

Nature:人工智能芯片!

来源:彤心未泯(学研汇 技术中心)、纳米人具有数十亿参数的人工智能(AI)模型可以在一系列任务中实现高精度,但它们加剧了传统通用处理器(例如图形处理单...
阅读原文

不用4个H100!340亿参数Code Llama在Mac可跑,每秒20个token,代码生成最拿手|Karpathy转赞

新智元报道编辑:桃子【新智元导读】现在,34B Code Llama模型已经能够在M2 Ultra上的Mac运行了,而且推理速度超过每秒20个token,背后杀器竟是「投机采样」...
阅读原文

谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱

新智元报道编辑:润 好困【新智元导读】谷歌团队认为,模型泛化能力无处不在,只要摸清条件,模型就不是随机鹦鹉。在特定情况下,人工智能模型会超越训练数据...
阅读原文
1567