标签:注意力
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
选自Lil’Log 作者:Lilian Weng 机器之心编译 编辑:Panda过去几年来,扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务...
Meta无限长文本大模型来了:参数仅7B,已开源
机器之心报道 编辑:泽南、陈萍谷歌之后,Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意...
华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍
4月18-19日,由智猩猩与智东西共同主办的2024中国生成式AI大会将在北京JW万豪酒店举行。大会完整议程出炉,55位嘉宾出席!免费票申请通道即将关闭,大会通票...
剑指Sora!120秒超长AI视频模型免费开玩
新智元报道编辑:alan 【新智元导读】近日,Picsart AI Resarch等团队联合发布了StreamingT2V,可以生成长达1200帧、时长为2分钟的视频,一举超越Sora。同时...
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
机器之心报道 编辑:小舟、陈萍不知 Gemini 1.5 Pro 是否用到了这项技术。 谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。 Infini-Trans...
Transformer并非万能:Jamba在效率和吞吐量上大幅超越
点击上方蓝字关注我们“AI21 Labs推出Jamba,一种结合SSM与transformers的新AI模型,旨在提高处理长上下文的效率。Jamba在特定推理任务上超越传统模型,尽管在...
OpenAI公关跳起来捂他嘴:Transformer作者公开承认参与Q*!|八位作者最新专访
梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer作者中唯一去了OpenAI的那位,公开承认了: 他参与了Q*项目,是这项新技术的发明者之一。 这几天除了英伟...
7人创业、1人投敌!Transformer 八子谷歌坐冷板凳5年再成老黄座上宾
作者|Steven Levy 译者|核子可乐 策划|冬梅 导读: 3月21日,GTC AI大会,黄仁勋对话7位Transformer框架论文作者。他们认为,AI行业被困在了六七年前的原...
Transformer七子重聚GTC,老黄亲自赠送签名版DGX-1!7年奠基之作背后佚事揭秘
新智元报道编辑:编辑部 【新智元导读】Transformer奠基之作拯救了现在的AI。就在GTC大会上,老黄聚齐了其中的七位作者,开启了一场深度访谈。GTC大会上,老...
全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重
明敏 发自 凹非寺量子位 | 公众号 QbitAI全球首个开源的类Sora架构视频生成模型,来了! 整个训练流程,包括数据处理、所有训练细节和模型权重,全部开放。 ...
OpenAI开源了:Transformer自动debug工具上线GitHub
机器之心报道 编辑:泽南不用敲代码,就可以快速探索模型结构。最近时常被吐槽不够开源的 OpenAI,突然开放了一次。 今天一早,OpenAI 机器学习研究员 Jan Le...
港中文联合MIT提出超长上下文LongLoRA大模型微调算法
大数据文摘受权转载自将门创投 现阶段,上下文窗口长度基本上成为了评估LLM能力的硬性指标,上下文的长度越长,代表大模型能够接受的用户要求越复杂,近期Ope...
我们还需要Transformer中的注意力吗?
选自interconnects 作者:Nathan Lambert 机器之心编译 机器之心编辑部状态空间模型正在兴起,注意力是否已到尽头?最近几周,AI 社区有一个热门话题:用无注...
从零手搓MoE大模型,大神级教程来了
克雷西 发自 凹非寺量子位 | 公众号 QbitAI传说中GPT-4的“致胜法宝”——MoE(混合专家)架构,自己也能手搓了! Hugging Face上有一位机器学习大神,分享了如何...
大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一
机器之心报道 编辑:杜伟、小舟去年,在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今,...