幻方AI ESFT:针对 MoE 的高效微调方案,媲美全参微调

幻方AI ESFT:针对 MoE 的高效微调方案,媲美全参微调

AIGC动态欢迎阅读

原标题:幻方AI ESFT:针对 MoE 的高效微调方案,媲美全参微调
关键字:专家,参数,解读,任务,作者
文章来源:智猩猩AGI
内容字数:0字

内容摘要:


生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯片专场、智算集群技术论坛等7大板块。目前,来自AMD、高通、Habana、壁仞科技、摩尔线程、苹芯科技、亿铸科技、凌川科技、云天励飞、中国移动研究院、北极雄芯等40+企业的嘉宾已确认演讲或讨论。扫码报名或购票~01背景本文中我们简单介绍一下幻方 AI 最近发布的针对 MoE 模型的高效微调方案 ESFT。(PS:需要说明的是,作者仅在 DeepSeek-V2-Lite 上评估,其每层有多达 66 个专家,对于常见的每层 8 个或 16 个专家的 MoE 模型是否有用还待商榷。)
对应的论文为:[2407.01906] Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models
对应的开源模型为:Huggingface deepseek-ai (DeepSeek)


原文链接:幻方AI ESFT:针对 MoE 的高效微调方案,媲美全参微调

联系作者

文章来源:智猩猩AGI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...