标签:专家

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

新智元报道编辑:编辑部 【新智元导读】MoE已然成为AI界的主流架构,不论是开源Grok,还是闭源GPT-4,皆是其拥趸。然而,这些模型的专家,最大数量仅有32个。...
阅读原文

生成式模型不只会「模仿」!哈佛、UCSB等最新成果:性能可超越训练集专家水平

新智元报道编辑:LRS 【新智元导读】生成式模型原本被设计来模仿人类的各种复杂行为,但人们普遍认为它们最多只能达到与其训练数据中的专家相当的水平。不过...
阅读原文

单一作者论文,谷歌提出百万专家Mixture,超越密集前馈、稀疏MoE

机器之心报道 编辑:泽南、杜伟释放进一步扩展 Transformer 的潜力,同时还可以保持计算效率。标准 Transformer 架构中的前馈(FFW)层会随着隐藏层宽度的增...
阅读原文

从零实现一个MOE(专家混合模型)

7月11日19点,「智猩猩自动驾驶新青年讲座」第36讲将开讲,主讲理想汽车最新成果:基于MLLM的闭环规划智能体PlanAgent,由理想汽车实习研究员、中国科学院自...
阅读原文

理财AI勇闯「无人区」:理解专家、成为专家

机器之心原创 作者:吴昕这是一条少有人走过的路。用十年时间成为全球在线服务数亿用户的财富管理平台后,摆在蚂蚁财富面前的是一段少有人走过的路: 这 5 亿...
阅读原文

揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相

机器之心原创 作者:张倩在 2024 年世界人工智能大会的现场,很多人在一个展台前排队,只为让 AI 大模型给自己在天庭「安排」一个差事。具体流程是这样的:首...
阅读原文

32专家MoE大模型免费商用!性能全面对标Llama3,单token推理消耗仅5.28%

克雷西 发自 凹非寺量子位 | 公众号 QbitAI每个token只需要5.28%的算力,精度就能全面对标Llama 3。 开源大模型,再添一位重量级选手—— 来自浪潮信息的32专家...
阅读原文

马斯克烧60亿美元难题,国内大厂有解?开源MoE模算效率黑马登场,3.7B参数单挑Llama 3-70B

新智元报道编辑:编辑部 【新智元导读】马斯克最近哭穷表示,xAI需要部署10万个H100才能训出Grok 3,影响全球的大模型算力荒怎么解?昨天开源的这款MoE大模型...
阅读原文

性能对标Llama 3,算力消耗仅1/19!源2.0-M32大幅提升模算效率

模更强,算更优!集成32个专家、模算效率大幅提升,浪潮信息让大模型应用火力全开。 作者|程茜 编辑|漠影 智东西5月28日报道,今天,浪潮信息发布基于MoE的源...
阅读原文

150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory

新智元报道编辑:乔杨 好困 【新智元导读】前几天,普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型,论文提出构建完全可微的MoE模型,是...
阅读原文

AI史上的第一个成功的商业产品是怎样诞生的?

大数据文摘受权转载自知识分子 图源:pixabay 撰文丨张天蓉2024年初,自然杂志公布了2024年重要的七项科技,其中一項是“蛋白质序列的深度学习模型”。这起源于...
阅读原文

微软让MoE长出多个头,大幅提升专家激活率

机器之心报道 编辑:Panda WMH-MoE 能优化几乎所有专家,实现起来非常简单。混合专家(MoE)是个好方法,支持着现在一些非常优秀的大模型,比如谷歌家的 Gemi...
阅读原文

Mixtral-8x7B MoE大模型微调实践,超越Llama2-65B

直播预告 | 5月14日晚7点,「智猩猩AI新青年讲座」第235讲正式开讲,慕尼黑工业大学视觉实验室陈振宇博士将直播讲解《三维室内场景纹理图生成》欢迎扫码报名~...
阅读原文

告别偏科,能玩转多模态、多任务、多领域的强化智能体终于来了

机器之心报道 编辑:佳琦模型、专家智能体和数据集都已开源。随着 Llama 3 发布,未来大模型的参数量已飙升至惊人的 4000 亿。尽管每周几乎都有一个声称性能...
阅读原文