标签:参数

今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理

夕小瑶科技说 原创作者 | Axe_越还记得2022年末ChatGPT的横空出世,带来了整个NLP乃至AI领域的震动,随后如LLaMA、ChatGLM、Qwen等类ChatGPT大模型(LLM)开...
阅读原文

单个4090可推理,2000亿稀疏大模型「天工MoE」开源

机器之心发布 机器之心编辑部在大模型浪潮中,训练和部署最先进的密集 LLM 在计算需求和相关成本上带来了巨大挑战,尤其是在数百亿或数千亿参数的规模上。为...
阅读原文

昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理

2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间...
阅读原文

不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它

机器之心报道 机器之心编辑部一般而言,训练神经网络耗费的计算量越大,其性能就越好。在扩大计算规模时,必须要做个决定:是增多模型参数量还是提升数据集大...
阅读原文

高效训练超越LoRA,北航发布MoRA

夕小瑶科技说 原创作者 | Richard什么!LoRA我都没有学懂,又出现了MoRA??? LoRA作为当下最火热的大语言模型参数高效微调技术,正在以前所未有的速度迭代...
阅读原文

最强开源编程大模型一夜易主:精通80+语言,仅22B

克雷西 发自 凹非寺量子位 | 公众号 QbitAI开源代码大模型的王座,再次易主! 来自素有“欧洲OpenAI”之称的Mistral,用22B参数量表现超越了70B的Code Llama。 ...
阅读原文

MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」

在高效训练与高显存占用之间横跳的 MoE,更像是一门妥协的艺术。作者|房晓楠 编辑|陈彩娴 MoE 会成为未来大模型训练的新方向吗? 这是人们发现 MoE 架构可...
阅读原文

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

只需单卡RTX 3090,低比特量化训练就能实现LLaMA-3 8B全参微调

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

今日arXiv最热大模型论文:LoRA又有新用途,学得少忘得也少,成持续学习关键!

夕小瑶科技说 原创作者 | Axe_越自大模型(LLM)诞生以来,苦于其高成本高消耗的训练模式,学界和业界也在努力探索更为高效的参数微调方法。其中Low-Rank Ada...
阅读原文

替代MLP的KAN,被开源项目扩展到卷积了

机器之心报道 机器之心编辑部本月初,来自 MIT 等机构的研究者提出了一种非常有潜力的 MLP 替代方法 ——KAN。 KAN 在准确性和可解释性方面表现优于 MLP,而且...
阅读原文

腾讯混元文生图大模型开源:Sora 同架构,更懂中文

又一家大模型开源了,这次是腾讯。 5 月 14 日,腾讯旗下的混元文生图大模型宣布对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理...
阅读原文

第一批用 LangChain 的程序员,已经碾压同事了…… | 极客时间

今年招聘市场确实是好点了,我发现群友都在讨论,得赶快学点 AI 大模型。 他们有的是想正式转到一些新兴的 AI 行业,需要系统的学习训练。更多的是想跟已有的...
阅读原文

Mixtral-8x7B MoE大模型微调实践,超越Llama2-65B

直播预告 | 5月14日晚7点,「智猩猩AI新青年讲座」第235讲正式开讲,慕尼黑工业大学视觉实验室陈振宇博士将直播讲解《三维室内场景纹理图生成》欢迎扫码报名~...
阅读原文

微软要放弃OpenAI了?他几个月就开发出了超越GPT-4的产品!

点击上方蓝字关注我们MAI-1的规模将远远超过微软以前训练的任何开源模型,参数量大约为5000亿。作为对比,Meta公司最大的Llama 3模型拥有超过4000亿参数,据...
阅读原文
14567816