参数 - 第 6 页

今日arXiv最热大模型论文：大模型都能怎么用？中南大学最新综述：大模型时代的自然语言处理

夕小瑶科技说原创作者 | Axe_越还记得2022年末ChatGPT的横空出世，带来了整个NLP乃至AI领域的震动，随后如LLaMA、ChatGLM、Qwen等类ChatGPT大模型（LLM）开...

阅读原文

AIGC动态

1年前 (2024)

单个4090可推理，2000亿稀疏大模型「天工MoE」开源

机器之心发布机器之心编辑部在大模型浪潮中，训练和部署最先进的密集 LLM 在计算需求和相关成本上带来了巨大挑战，尤其是在数百亿或数千亿参数的规模上。为...

阅读原文

AIGC动态

1年前 (2024)

昆仑万维开源 2 千亿稀疏大模型天工 MoE，全球首创能用 4090 推理

2024年6月3日，昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE ，性能强劲，同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间...

阅读原文

AIGC动态

1年前 (2024)

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

机器之心报道机器之心编辑部一般而言，训练神经网络耗费的计算量越大，其性能就越好。在扩大计算规模时，必须要做个决定：是增多模型参数量还是提升数据集大...

阅读原文

AIGC动态

1年前 (2024)

高效训练超越LoRA，北航发布MoRA

夕小瑶科技说原创作者 | Richard什么！LoRA我都没有学懂，又出现了MoRA？？？ LoRA作为当下最火热的大语言模型参数高效微调技术，正在以前所未有的速度迭代...

阅读原文

AIGC动态

1年前 (2024)

最强开源编程大模型一夜易主：精通80+语言，仅22B

克雷西发自凹非寺量子位 | 公众号 QbitAI开源代码大模型的王座，再次易主！来自素有“欧洲OpenAI”之称的Mistral，用22B参数量表现超越了70B的Code Llama。 ...

阅读原文

AIGC动态

1年前 (2024)

MoE 高效训练的 A/B 面：与魔鬼做交易，用「显存」换「性能」

在高效训练与高显存占用之间横跳的 MoE，更像是一门妥协的艺术。作者｜房晓楠编辑｜陈彩娴 MoE 会成为未来大模型训练的新方向吗？这是人们发现 MoE 架构可...

阅读原文

AIGC动态

1年前 (2024)

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

1年前 (2024)

只需单卡RTX 3090，低比特量化训练就能实现LLaMA-3 8B全参微调

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

1年前 (2024)

今日arXiv最热大模型论文：LoRA又有新用途，学得少忘得也少，成持续学习关键！

夕小瑶科技说原创作者 | Axe_越自大模型（LLM）诞生以来，苦于其高成本高消耗的训练模式，学界和业界也在努力探索更为高效的参数微调方法。其中Low-Rank Ada...

阅读原文

AIGC动态

1年前 (2024)

替代MLP的KAN，被开源项目扩展到卷积了

机器之心报道机器之心编辑部本月初，来自 MIT 等机构的研究者提出了一种非常有潜力的 MLP 替代方法 ——KAN。 KAN 在准确性和可解释性方面表现优于 MLP，而且...

阅读原文

AIGC动态

1年前 (2024)

腾讯混元文生图大模型开源：Sora 同架构，更懂中文

又一家大模型开源了，这次是腾讯。 5 月 14 日，腾讯旗下的混元文生图大模型宣布对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理...

阅读原文

AIGC动态

1年前 (2024)

第一批用 LangChain 的程序员，已经碾压同事了…… | 极客时间

今年招聘市场确实是好点了，我发现群友都在讨论，得赶快学点 AI 大模型。他们有的是想正式转到一些新兴的 AI 行业，需要系统的学习训练。更多的是想跟已有的...

阅读原文

AIGC动态

1年前 (2024)

Mixtral-8x7B MoE大模型微调实践，超越Llama2-65B

直播预告 | 5月14日晚7点，「智猩猩AI新青年讲座」第235讲正式开讲，慕尼黑工业大学视觉实验室陈振宇博士将直播讲解《三维室内场景纹理图生成》欢迎扫码报名~...

阅读原文

AIGC动态

2年前 (2024)

微软要放弃OpenAI了？他几个月就开发出了超越GPT-4的产品！

点击上方蓝字关注我们MAI-1的规模将远远超过微软以前训练的任何开源模型，参数量大约为5000亿。作为对比，Meta公司最大的Llama 3模型拥有超过4000亿参数，据...

阅读原文

AIGC动态

2年前 (2024)

标签：参数