标签：专家

从零手搓MoE大模型，大神级教程来了

克雷西发自凹非寺量子位 | 公众号 QbitAI传说中GPT-4的“致胜法宝”——MoE（混合专家）架构，自己也能手搓了！ Hugging Face上有一位机器学习大神，分享了如何...

阅读原文

AIGC动态

2年前 (2024)

GPT-4准确率最高飙升64%！斯坦福OpenAI重磅研究：全新Meta-Prompting方法让LLM当老板

新智元报道编辑：桃子好困【新智元导读】大模型幻觉问题还有另一种解法？斯坦福联手OpenAI研究人员提出「元提示」新方法，能够让大模型成为全能「指挥家」...

阅读原文

AIGC动态

2年前 (2024)

OpenAI、斯坦福大学提出Meta-Prompting，有效提升语言模型的性能

夕小瑶科技说原创作者 | 智商掉了一地、Python 为了研究如何提高语言模型的性能，使其更充分有效地输出对于提问的回答，来自斯坦福和 OpenAI 的学者强强联手...

阅读原文

AIGC动态

2年前 (2024)

混合专家模型Mixtral-8x7B模型挖坑指北

01前言MistralAI很高冷的给开源社区扔了一条磁力链，基于Mixture of Experts的混合专家模型Mixtral-8x7B和指令微调的Mixtral-8x7B-Instruct来了。此前曾爆料G...

阅读原文

AIGC动态

2年前 (2024)

大模型专家混合MoE模型详解

本文转载自公众号：青稞AI，原作者：Miller@知乎。Mixtral 8x7B 的推出（参见公告[1]和模型卡片[2]在开放 AI 领域引发了广泛关注，特别是对于专家混合（Mixtu...

阅读原文

AIGC动态

2年前 (2024)

MoE与Mamba强强联合，将状态空间模型扩展到数百亿参数

机器之心报道编辑：Panda性能与 Mamba 一样，但所需训练步骤数却少 2.2 倍。状态空间模型（SSM）是近来一种备受关注的 Transformer 替代技术，其优势是能在...

阅读原文

AIGC动态

2年前 (2024)

被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

选自 HuggingFace 博客编译：赵阳本文将介绍 MoE 的构建模块、训练方法以及在使用它们进行推理时需要考虑的权衡因素。专家混合 (MoE) 是 LLM 中常用的一种技...

阅读原文

AIGC动态

2年前 (2024)

杀疯了的开源专家模型 Mixtral 8x7B 论文公开啦！

夕小瑶科技说原创作者 | 付奶茶、王二狗上个月法国初创公司 Mistral AI 开源的一个8x7B MoE模型Mixtral 8x7B引爆了AI社区。一是因为它的性能击败了LLama2和...

阅读原文

AIGC动态

2年前 (2024)

Arxiv最热论文推荐：揭秘Transformer新身份、谷歌VLM蒸馏、复旦LEGO模型

本文内容由赛博马良「AI论文解读达人」智能体生成，人工整理排版。「AI论文解读达人」可提供最热AI论文推荐、论文解读等功能。传送门： https://www.sai...

阅读原文

AIGC动态

2年前 (2024)

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

克雷西发自凹非寺量子位 | 公众号 QbitAI开源MoE模型，终于迎来首位国产选手！它的表现完全不输给密集的Llama 2-7B模型，计算量却仅有40%。这个模型堪称1...

阅读原文

AIGC动态

2年前 (2024)

混合专家系统里根本没专家？开源MoE模型论文引网友热议

克雷西发自凹非寺量子位 | 公众号 QbitAI红极一时的开源MoE模型Mixtral，论文终于新鲜出炉！除了披露了更多技术细节，论文中还有一个结论引发了热烈讨论——...

阅读原文

AIGC动态

2年前 (2024)

Mixtral 8x7B论文终于来了：架构细节、参数量首次曝光

机器之心报道作者：陈萍、大盘鸡Mixtral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5。前段时间，那个爆火整个开源社区的 Mixtral 8x7B MoE 模型...

阅读原文

AIGC动态

2年前 (2024)

一条磁力链爆全网，Mixtral 8x7B论文来了！碾压Llama 2 70B，每token仅需激活13B参数

新智元报道编辑：桃子好困【新智元导读】爆火社区的Mixtral 8x7B模型，今天终于放出了arXiv论文！所有模型细节全部公开了。还记得一个月前，Mistral AI突然...

阅读原文

AIGC动态

2年前 (2024)

OpenAI翁丽莲的Agent公式，一定是正确的吗？

衡宇发自凹非寺量子位 | 公众号 QbitAI2024年了，被寄予厚望的AI Agent，到底是谁在用啊？！它被视作通向AGI最有可能的路径之一，国内外公司都研究得火热...

阅读原文

AIGC动态

2年前 (2024)

多模态大模型学杂了能力反下降？新研究：MoE+通用专家解决冲突

港科大&南科大&华为诺亚方舟实验室量子位 | 公众号 QbitAI微调，能让通用大模型更加适配具体的行业应用。但现在，研究人员们却发现：对多模态大模...

阅读原文

AIGC动态

2年前 (2023)

1 2 345