标签:损失

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

大模型“取长补短”新思路入选NeurIPS'24,显著优于现有路由方法,南科大港科大出品

RouterDC团队 投稿量子位 | 公众号 QbitAI高效组合多个大模型“取长补短”新思路,被顶会NeurIPS 2024接收。 名为RouterDC,是一种基于双重对比学习的路由架构...
阅读原文

今日最热论文:Scaling Law后继乏力,量化也不管用,AI大佬齐刷刷附议

一水 发自 凹非寺量子位 | 公众号 QbitAI几十万人关注,一发表即被行业大佬评为“这是很长时间以来最重要的论文”。 哈佛、斯坦福、MIT等团队的一项研究表明:...
阅读原文

深入浅出Batch Size,对模型训练的影响分析

开讲预告11月7日晚7点,上海 AI Lab OpenGVLab 博士后研究员罗根,将以《Mono-InternVL: 突破原生多模态大模型性能瓶颈》为主题进行直播讲解,欢迎扫码报名~...
阅读原文

从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强

机器之心报道 编辑:杜伟、陈陈、泽南小模型崛起了。上个月,Meta 发布了 Llama 3.1 系列模型,其中包括 Meta 迄今为止最大的 405B 模型,以及两个较小的模型...
阅读原文

FBI-LLM低比特基础大语言模型来了,首个完全从头训练的二值化语言模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

MSRA:视觉生成六大技术问题

古纾旸 投稿量子位 | 公众号 QbitAI文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。 微软亚洲研究院研究员古纾旸对此进行了梳理,他认为视觉...
阅读原文

最新!何恺明团队发布:打破自回归图像生成瓶颈,告别矢量量化

夕小瑶科技说 原创作者 | 21#近日,深度学习领域的杰出研究者何恺明及其团队又放了个大招,推出其团队最新研究工作,在AI研究领域引起了广泛关注。 何恺明202...
阅读原文

何恺明新作再战AI生成:入职MIT后首次带队,奥赛双料金牌得主邓明扬参与

梦晨 发自 凹非寺量子位 | 公众号 QbitAI何恺明入职MIT副教授后,首次带队的新作来了! 让自回归模型抛弃矢量量化,使用连续值生成图像。并借鉴扩散模型的思...
阅读原文

OpenAI公开GPT-4思维的新方法,Ilya也参与了!

西风 发自 凹非寺量子位 | 公众号 QbitAIOpenAI研究如何破解GPT-4思维,公开超级对齐团队工作,Ilya Sutskever也在作者名单之列。 该研究提出了改进大规模训...
阅读原文

StyleMamba:图片风格不满意?一句话就能调!

夕小瑶科技说 原创作者 | Axe_越你与哈利波特的距离,只剩一个StyleMamba! “我想,把我的图变成朦胧马赛克” “我想,我的画能不能变成美美的莫奈风格” “我想...
阅读原文

清华发布Temporal Scaling Law,解释时间尺度对大模型表现的影响

夕小瑶科技说 原创作者 | Axe_越众所周知, 语言模型调参! 预训练语言模型调参!! 预训练大语言模型调参!!! 简直就是一个指数级递增令人炸毛的事情,小...
阅读原文

ICLR 2024 Oral|用巧妙的「传送」技巧,让神经网络的训练更加高效

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

手撕CNN:综述论文详解卷积网络的数学本质

近日南洋理工大学研究者发布了一篇描述卷积网络数学原理的论文,该论文从数学的角度阐述整个卷积网络的运算与传播过程。该论文对理解卷积网络的数学本质非常...
阅读原文

三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法

新智元报道编辑:LRS 【新智元导读】现有的语义分割技术在评估指标、损失函数等设计上都存在缺陷,研究人员针对相关缺陷设计了全新的损失函数、评估指标和基...
阅读原文
12