标签：门控

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

6个月前

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

10个月前

RNN回归！Bengio新作大道至简与Transformer一较高下

新智元报道编辑：alan 【新智元导读】近日，深度学习三巨头之一的Yoshua Bengio，带领团队推出了全新的RNN架构，以大道至简的思想与Transformer一较高下。在T...

阅读原文

AIGC动态

10个月前

ECCV 2024 | 一眼临摹：瞥一眼就能模仿笔迹的AI

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

11个月前

算法、系统和应用，三个视角全面读懂混合专家（MoE）

机器之心报道编辑：Panda WLLM 很强，而为了实现 LLM 的可持续扩展，有必要找到并实现能提升其效率的方法，混合专家（MoE）就是这类方法的一大重要成员。最...

阅读原文

AIGC动态

1年前 (2024)

从零实现一个MOE（专家混合模型）

7月11日19点，「智猩猩自动驾驶新青年讲座」第36讲将开讲，主讲理想汽车最新成果：基于MLLM的闭环规划智能体PlanAgent，由理想汽车实习研究员、中国科学院自...

阅读原文

AIGC动态

1年前 (2024)

马斯克烧60亿美元难题，国内大厂有解？开源MoE模算效率黑马登场，3.7B参数单挑Llama 3-70B

新智元报道编辑：编辑部【新智元导读】马斯克最近哭穷表示，xAI需要部署10万个H100才能训出Grok 3，影响全球的大模型算力荒怎么解？昨天开源的这款MoE大模型...

阅读原文

AIGC动态

1年前 (2024)

基础架构竞争激烈，LSTM原作者提出指数门控xLSTM，性能直逼Transformer和Mamba

大数据文摘授权转载自将门创投作者：seven_ 经典长短时记忆网络（LSTM）架构最早可以追溯到20世纪90年代，因其独特的常量误差传递（constant error carousel...

阅读原文

AIGC动态

1年前 (2024)

原作者带队，LSTM真杀回来了！

机器之心报道编辑：蛋酱LSTM：这次重生，我要夺回 Transformer 拿走的一切。20 世纪 90 年代，长短时记忆（LSTM）方法引入了恒定误差选择轮盘和门控的核心思...

阅读原文

AIGC动态

1年前 (2024)

大模型扫盲系列——大模型实用技术介绍（上）

大数据文摘受权转载自数据派THU 编辑：黄继彦校对：林赣敏01 Gemma模型架构和参数计算上一篇文章《原创 | 大模型扫盲系列——初识大模型》从比较宏观的角度初...

阅读原文

AIGC动态

1年前 (2024)

DeepMind携Mamba华人作者推Transformer之作！性能暴涨媲美Llama 2，推理能效大幅碾压

新智元报道编辑：编辑部【新智元导读】线性RNN赢了？近日，谷歌DeepMind一口气推出两大新架构，在d基准测试中超越了Transformer。新架构不仅保证了高效的训...

阅读原文

AIGC动态

1年前 (2024)

群魔乱舞：MoE大模型详解

700个开发硬件免费申请➕现金大奖！生成式 AI、机器人 AI、PC AI 三大赛道！AMD Pervasive AI 开发者挑战赛报名火热进行中，扫码了解详情并报名～导读本文是知...

阅读原文

AIGC动态

1年前 (2024)

打破MoE训练效率与性能瓶颈，华为盘古稀疏大模型全新架构LocMoE出炉

机器之心专栏机器之心编辑部2023 年 12 月，首个开源 MoE 大模型 Mixtral 8×7B 发布，在多种基准测试中，其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B，而推理...

阅读原文

AIGC动态

2年前 (2024)

从零手搓MoE大模型，大神级教程来了

克雷西发自凹非寺量子位 | 公众号 QbitAI传说中GPT-4的“致胜法宝”——MoE（混合专家）架构，自己也能手搓了！ Hugging Face上有一位机器学习大神，分享了如何...

阅读原文

AIGC动态

2年前 (2024)

大模型专家混合MoE模型详解

本文转载自公众号：青稞AI，原作者：Miller@知乎。Mixtral 8x7B 的推出（参见公告[1]和模型卡片[2]在开放 AI 领域引发了广泛关注，特别是对于专家混合（Mixtu...

阅读原文

AIGC动态

2年前 (2024)

被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

选自 HuggingFace 博客编译：赵阳本文将介绍 MoE 的构建模块、训练方法以及在使用它们进行推理时需要考虑的权衡因素。专家混合 (MoE) 是 LLM 中常用的一种技...

阅读原文

AIGC动态

2年前 (2024)

杀疯了的开源专家模型 Mixtral 8x7B 论文公开啦！

夕小瑶科技说原创作者 | 付奶茶、王二狗上个月法国初创公司 Mistral AI 开源的一个8x7B MoE模型Mixtral 8x7B引爆了AI社区。一是因为它的性能击败了LLama2和...

阅读原文

AIGC动态

2年前 (2024)