标签:草稿

3天把Llama训成Mamba,性能不降,推理更快!

新智元报道编辑:alan 【新智元导读】近日,Mamba方面又搞出了有意思的研究:来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计...
阅读原文

无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快

新智元报道编辑:桃子 好困【新智元导读】大模型推理加速如何破局?普林斯顿、UIUC等机构华人团队提出一个简单框架Medusa,训练多个解码头,直接让LLM推理速...
阅读原文

不用4个H100!340亿参数Code Llama在Mac可跑,每秒20个token,代码生成最拿手|Karpathy转赞

新智元报道编辑:桃子【新智元导读】现在,34B Code Llama模型已经能够在M2 Ultra上的Mac运行了,而且推理速度超过每秒20个token,背后杀器竟是「投机采样」...
阅读原文