标签:损失

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强

机器之心报道 编辑:杜伟、陈陈、泽南小模型崛起了。上个月,Meta 发布了 Llama 3.1 系列模型,其中包括 Meta 迄今为止最大的 405B 模型,以及两个较小的模型...
阅读原文

FBI-LLM低比特基础大语言模型来了,首个完全从头训练的二值化语言模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

MSRA:视觉生成六大技术问题

古纾旸 投稿量子位 | 公众号 QbitAI文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。 微软亚洲研究院研究员古纾旸对此进行了梳理,他认为视觉...
阅读原文

最新!何恺明团队发布:打破自回归图像生成瓶颈,告别矢量量化

夕小瑶科技说 原创作者 | 21#近日,深度学习领域的杰出研究者何恺明及其团队又放了个大招,推出其团队最新研究工作,在AI研究领域引起了广泛关注。 何恺明202...
阅读原文

何恺明新作再战AI生成:入职MIT后首次带队,奥赛双料金牌得主邓明扬参与

梦晨 发自 凹非寺量子位 | 公众号 QbitAI何恺明入职MIT副教授后,首次带队的新作来了! 让自回归模型抛弃矢量量化,使用连续值生成图像。并借鉴扩散模型的思...
阅读原文

OpenAI公开破解GPT-4思维的新方法,Ilya也参与了!

西风 发自 凹非寺量子位 | 公众号 QbitAIOpenAI研究如何破解GPT-4思维,公开超级对齐团队工作,Ilya Sutskever也在作者名单之列。 该研究提出了改进大规模训...
阅读原文

StyleMamba:图片风格不满意?一句话就能调!

夕小瑶科技说 原创作者 | Axe_越你与哈利波特的距离,只剩一个StyleMamba! “我想,把我的图变成朦胧马赛克” “我想,我的画能不能变成美美的莫奈风格” “我想...
阅读原文

清华发布Temporal Scaling Law,解释时间尺度对大模型表现的影响

夕小瑶科技说 原创作者 | Axe_越众所周知, 语言模型调参! 预训练语言模型调参!! 预训练大语言模型调参!!! 简直就是一个指数级递增令人炸毛的事情,小...
阅读原文

ICLR 2024 Oral|用巧妙的「传送」技巧,让神经网络的训练更加高效

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

手撕CNN:综述论文详解卷积网络的数学本质

近日南洋理工大学研究者发布了一篇描述卷积网络数学原理的论文,该论文从数学的角度阐述整个卷积网络的运算与传播过程。该论文对理解卷积网络的数学本质非常...
阅读原文

三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法

新智元报道编辑:LRS 【新智元导读】现有的语义分割技术在评估指标、损失函数等设计上都存在缺陷,研究人员针对相关缺陷设计了全新的损失函数、评估指标和基...
阅读原文

何恺明谢赛宁解剖扩散模型,新作刚刚出炉

编辑部 发自 凹非寺量子位 | 公众号 QbitAICV大神何恺明,也来搞扩散模型(Diffusion Model)了! 大神最新论文刚刚挂上arXiv,还是热乎的:解构扩散模型,提...
阅读原文

三行代码无损加速40%,尤洋团队AI训练加速器入选ICLR Oral论文

克雷西 发自 凹非寺量子位 | 公众号 QbitAI用剪枝的方式加速AI训练,也能实现无损操作了,只要三行代码就能完成! 今年的深度学习顶会ICLR上,新加坡国立大学...
阅读原文

弥合2D和3D生成领域之间的次元壁,X-Dreamer实现高质量的文本到3D生成

机器之心专栏机器之心编辑部本文介绍了一个名为 X-Dreamer 的框架,它主要由CG-LoRA和AMA损失两种关键创新组成,实现了弥合 text-to-2D 和 text-to-3D 间的领...
阅读原文

更通用、有效,蚂蚁自研优化器WSAM入选KDD Oral

机器之心专栏机器之心编辑部蚂蚁 AI Infra 团队在深度学习最核心之一的优化器方向持续投入与创新,实现了 AI 训练节约资源、加速收敛、提升泛化等目标。我们...
阅读原文
12