标签:注意力
15 年功臣、英伟达首席科学家在股价巅峰期黯然辞职:手握大笔财富,但我为我的工作感到遗憾
编译 | 核子可乐、Tina 很多朋友可能没听说过 Jacopo Pantaleoni 的名字,但或多或少应该见证过他的工作成果。Pantaleoni 的专长是将数据转换为图像,作为首...
MotionClone:无需训练,一键克隆视频运动
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍
新智元报道编辑:编辑部 【新智元导读】时隔一年,FlashAttention又推出了第三代更新,专门针对H100 GPU的新特性进行优化,在之前的基础上又实现了1.5~2倍的...
英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%
机器之心报道 编辑:陈陈、小舟740 TFLOPS!迄今最强 FlashAttention 来了。随着大型语言模型(LLM)加速落地,扩展模型上下文窗口变得越来越重要。然而,Tra...
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
机器之心报道 编辑:陈陈2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然...
单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速
机器之心报道 编辑:张倩、陈萍微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。大型语言模型 (LLM) 已进入长上下文处理时代...
上交&阿里:掀开多模态大模型的头盖骨,解密黑盒模型推理过程
夕小瑶科技说 原创作者 | 谢年年多模态大模型的发展势头正猛,研究者们热衷于通过微调模型,打造出具有更高输入分辨率、更复杂功能、更强感知能力以及更精细...
拆分Transformer注意力,韩国团队让大模型解码提速20倍
克雷西 发自 凹非寺量子位 | 公众号 QbitAI只要将注意力切块,就能让大模型解码提速20倍。 来自韩国科学技术研究院、LG和DeepMind的研究人员,提出了一种新的...
AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
一水 发自 凹非寺量子位 | 公众号 QbitAI尤洋团队新作,首个基于DiT的实时视频生成方法来了! 先来直观感受一下效果(右侧为新方法): 这是团队在Open-Sora...
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
机器之心报道 机器之心编辑部性能翻倍的Gemma 2, 让同量级的Llama3怎么玩?AI赛道上,科技巨头们激烈角逐。前脚有GPT-4o问世,后脚就出现了Claude 3.5 Son...
单张A100全精度推理!谷歌明星开源模型Gemma 2上新9B/27B,挑战3140亿Grok-1
新智元报道编辑:耳朵 【新智元导读】昨晚,谷歌正式开源了自家最强的开源模型Gemma 2,直指为全球范围研究开发者提供实用部署工具。就在昨晚,谷歌的明星开...
史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍
机器之心报道 机器之心编辑部DiT 都能用,生成视频无质量损失,也不需要训练。实时 AI 视频生成来了! 本周三,新加坡国立大学尤洋团队提出了业内第一种可以...
最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀
梦晨 发自 凹非寺量子位 | 公众号 QbitAI什么AI应用每秒处理20000个AI推理请求,达到2024年谷歌搜索流量的1/5? 答案是独角兽Character.ai,由Transformer作...
今日arXiv最热大模型论文:清华大学:一个简单缩放让大模型利用长上下文能力提升15.2%
夕小瑶科技说 原创作者 | 谢年年 不知道大家发现没有,一些大模型的提示技巧总是习惯将一些重要指令或信息放在提示的开头或者结尾。 这是因为LLMs在处理上下...
AI研究的主要推动力会是什么?ChatGPT团队研究科学家:算力成本下降
机器之心报道 编辑:PandaAI 研究发展的主要推动力是什么?在最近的一次演讲中,OpenAI 研究科学家 Hyung Won Chung 给出了自己的答案。 近日,斯坦福大学《C...