标签:注意力

英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%

机器之心报道 编辑:陈陈、小舟740 TFLOPS!迄今最强 FlashAttention 来了。随着大型语言模型(LLM)加速落地,扩展模型上下文窗口变得越来越重要。然而,Tra...
阅读原文

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

机器之心报道 编辑:陈陈2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然...
阅读原文

单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速

机器之心报道 编辑:张倩、陈萍微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。大型语言模型 (LLM) 已进入长上下文处理时代...
阅读原文

上交&阿里:掀开多模态大模型的头盖骨,解密黑盒模型推理过程

夕小瑶科技说 原创作者 | 谢年年多模态大模型的发展势头正猛,研究者们热衷于通过微调模型,打造出具有更高输入分辨率、更复杂功能、更强感知能力以及更精细...
阅读原文

拆分Transformer注意力,韩国团队让大模型解码提速20倍

克雷西 发自 凹非寺量子位 | 公众号 QbitAI只要将注意力切块,就能让大模型解码提速20倍。 来自韩国科学技术研究院、LG和DeepMind的研究人员,提出了一种新的...
阅读原文

AI首次实时生成视频!尤洋团队新作,网友:这是新纪元

一水 发自 凹非寺量子位 | 公众号 QbitAI尤洋团队新作,首个基于DiT的实时视频生成方法来了! 先来直观感受一下效果(右侧为新方法): 这是团队在Open-Sora...
阅读原文

谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!

机器之心报道 机器之心编辑部性能翻倍的Gemma 2, 让同量级的Llama3怎么玩?‍‍AI赛道上,科技巨头们激烈角逐。前脚有GPT-4o问世,后脚就出现了Claude 3.5 Son...
阅读原文

单张A100全精度推理!谷歌明星开源模型Gemma 2上新9B/27B,挑战3140亿Grok-1

新智元报道编辑:耳朵 【新智元导读】昨晚,谷歌正式开源了自家最强的开源模型Gemma 2,直指为全球范围研究开发者提供实用部署工具。就在昨晚,谷歌的明星开...
阅读原文

史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍

机器之心报道 机器之心编辑部DiT 都能用,生成视频无质量损失,也不需要训练。实时 AI 视频生成来了! 本周三,新加坡国立大学尤洋团队提出了业内第一种可以...
阅读原文

最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

梦晨 发自 凹非寺量子位 | 公众号 QbitAI什么AI应用每秒处理20000个AI推理请求,达到2024年谷歌搜索流量的1/5? 答案是独角兽Character.ai,由Transformer作...
阅读原文

今日arXiv最热大模型论文:清华大学:一个简单缩放让大模型利用长上下文能力提升15.2%

夕小瑶科技说 原创作者 | 谢年年 不知道大家发现没有,一些大模型的提示技巧总是习惯将一些重要指令或信息放在提示的开头或者结尾。 这是因为LLMs在处理上下...
阅读原文

AI研究的主要推动力会是什么?ChatGPT团队研究科学家:算力成本下降

机器之心报道 编辑:PandaAI 研究发展的主要推动力是什么?在最近的一次演讲中,OpenAI 研究科学家 Hyung Won Chung 给出了自己的答案。 近日,斯坦福大学《C...
阅读原文

2.5%KV缓存保持大模型90%性能,大模型金字塔式信息汇聚模式探秘|开源

蔡泽凡 投稿量子位 | 公众号 QbitAI用KV缓存加速大模型的显存瓶颈,终于迎来突破。 北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案,只用2....
阅读原文

i人小助手:Meta推出多模态对话图,帮你轻松识别社交状态

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

SSM 能取代 Transformer 搞出更「牛」的大模型吗?

机器之心PRO · 会员通讯 Week 23---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. SSM 能取代 Transformer 搞出更「牛」的大模型吗? SSM ...
阅读原文
123458