标签:树状

大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE

机器之心专栏机器之心编辑部大语言模型(LLM)被越来越多应用于各种领域。然而,它们的文本生成过程既昂贵又缓慢。这种低效率归因于自回归解码的运算规则:每...
阅读原文

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

新智元报道编辑:桃子 好困【新智元导读】大模型推理加速如何破局?普林斯顿、UIUC等机构华人团队提出一个简单框架Medusa,训练多个解码头,直接让LLM推理速...
阅读原文