标签:参数

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

机器之心报道 机器之心编辑部一般而言,训练神经网络耗费的计算量越大,其性能就越好。在扩大计算规模时,必须要做个决定:是增多模型参数量还是提升数据集大...
阅读原文

高效训练超越LoRA,北航发布MoRA

夕小瑶科技说 原创作者 | Richard什么!LoRA我都没有学懂,又出现了MoRA??? LoRA作为当下最火热的大语言模型参数高效微调技术,正在以前所未有的速度迭代...
阅读原文

最强开源编程大模型一夜易主:精通80+语言,仅22B

克雷西 发自 凹非寺量子位 | 公众号 QbitAI开源代码大模型的王座,再次易主! 来自素有“欧洲OpenAI”之称的Mistral,用22B参数量表现超越了70B的Code Llama。 ...
阅读原文

MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」

在高效训练与高显存占用之间横跳的 MoE,更像是一门妥协的艺术。作者|房晓楠 编辑|陈彩娴 MoE 会成为未来大模型训练的新方向吗? 这是人们发现 MoE 架构可...
阅读原文

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

只需单卡RTX 3090,低比特量化训练就能实现LLaMA-3 8B全参微调

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

今日arXiv最热大模型论文:LoRA又有新用途,学得少忘得也少,成持续学习关键!

夕小瑶科技说 原创作者 | Axe_越自大模型(LLM)诞生以来,苦于其高成本高消耗的训练模式,学界和业界也在努力探索更为高效的参数微调方法。其中Low-Rank Ada...
阅读原文

替代MLP的KAN,被开源项目扩展到卷积了

机器之心报道 机器之心编辑部本月初,来自 MIT 等机构的研究者提出了一种非常有潜力的 MLP 替代方法 ——KAN。 KAN 在准确性和可解释性方面表现优于 MLP,而且...
阅读原文

腾讯混元文生图大模型开源:Sora 同架构,更懂中文

又一家大模型开源了,这次是腾讯。 5 月 14 日,腾讯旗下的混元文生图大模型宣布对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理...
阅读原文

第一批用 LangChain 的程序员,已经碾压同事了…… | 极客时间

今年招聘市场确实是好点了,我发现群友都在讨论,得赶快学点 AI 大模型。 他们有的是想正式转到一些新兴的 AI 行业,需要系统的学习训练。更多的是想跟已有的...
阅读原文

Mixtral-8x7B MoE大模型微调实践,超越Llama2-65B

直播预告 | 5月14日晚7点,「智猩猩AI新青年讲座」第235讲正式开讲,慕尼黑工业大学视觉实验室陈振宇博士将直播讲解《三维室内场景纹理图生成》欢迎扫码报名~...
阅读原文

微软要放弃OpenAI了?他几个月就开发出了超越GPT-4的产品!

点击上方蓝字关注我们MAI-1的规模将远远超过微软以前训练的任何开源模型,参数量大约为5000亿。作为对比,Meta公司最大的Llama 3模型拥有超过4000亿参数,据...
阅读原文

掏空Inflection之后,微软自研5000亿参数大模型MAI-1曝光,前DeepMind高管带队

不需要OpenAI,微软或许也会成为AI领头羊! 外媒Information爆料称,微软内部正在开发自家首款5000亿参数的大模型MAl-1。 这恰好是,纳德拉带领团队证明自己...
阅读原文

挑战OpenAI,微软自研5000亿参数绝密武器曝光!前谷歌DeepMind高管带队

新智元报道编辑:桃子 好困 【新智元导读】没有OpenAI,微软还有万全之策!首个5000亿参数大模型MAl-1正在研发,前谷歌DeepMind负责人领衔,预计5月底亮相。...
阅读原文

爆火后反转?「一夜干掉MLP」的KAN:其实我也是MLP

机器之心报道 编辑:蛋酱、张倩KAN 作者:我想传达的信息不是「KAN 很棒」,而是「尝试批判性地思考当前的架构,并寻求从根本上不同的替代方案,这些方案可以...
阅读原文
14567816