标签:注意力

250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞

新智元报道编辑:乔杨 好困 【新智元导读】Llama 3发布一个月后,一位开发者在GitHub上创建了名为「从头开始实现Llama 3」的项目,引起了开源社区的广泛关注...
阅读原文

从零复现Llama3代码库爆火,大神Kapathy一键三连,GitHub狂揽2k+

西风 发自 凹非寺量子位 | 公众号 QbitAI让大神Andrej Karpathy一键三连❤️(点赞+转发+评论),一个教你从头开始实现Llama3的代码库爆火。 X上转赞收藏量超6....
阅读原文

Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star

机器之心报道 编辑:杜伟、陈萍项目中代码很多很全,值得细读。一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并...
阅读原文

Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

选自Lil’Log 作者:Lilian Weng 机器之心编译 编辑:Panda过去几年来,扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务...
阅读原文

Meta无限长文本大模型来了:参数仅7B,已开源

机器之心报道 编辑:泽南、陈萍谷歌之后,Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意...
阅读原文

华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍

4月18-19日,由智猩猩与智东西共同主办的2024中国生成式AI大会将在北京JW万豪酒店举行。大会完整议程出炉,55位嘉宾出席!免费票申请通道即将关闭,大会通票...
阅读原文

剑指Sora!120秒超长AI视频模型免费开玩

新智元报道编辑:alan 【新智元导读】近日,Picsart AI Resarch等团队联合发布了StreamingT2V,可以生成长达1200帧、时长为2分钟的视频,一举超越Sora。同时...
阅读原文

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

机器之心报道 编辑:小舟、陈萍不知 Gemini 1.5 Pro 是否用到了这项技术。 谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。 Infini-Trans...
阅读原文

Transformer并非万能:Jamba在效率和吞吐量上大幅超越

点击上方蓝字关注我们“AI21 Labs推出Jamba,一种结合SSM与transformers的新AI模型,旨在提高处理长上下文的效率。Jamba在特定推理任务上超越传统模型,尽管在...
阅读原文

OpenAI公关跳起来捂他嘴:Transformer作者公开承认参与Q*!|八位作者最新专访

梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer作者中唯一去了OpenAI的那位,公开承认了: 他参与了Q*项目,是这项新技术的发明者之一。 这几天除了英伟...
阅读原文

7人创业、1人投敌!Transformer 八子谷歌坐冷板凳5年再成老黄座上宾

作者|Steven Levy 译者|核子可乐 策划|冬梅 导读: 3月21日,GTC AI大会,黄仁勋对话7位Transformer框架论文作者。他们认为,AI行业被困在了六七年前的原...
阅读原文

Transformer七子重聚GTC,老黄亲自赠送签名版DGX-1!7年奠基之作背后佚事揭秘

新智元报道编辑:编辑部 【新智元导读】Transformer奠基之作拯救了现在的AI。就在GTC大会上,老黄聚齐了其中的七位作者,开启了一场深度访谈。GTC大会上,老...
阅读原文

全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重

明敏 发自 凹非寺量子位 | 公众号 QbitAI全球首个开源的类Sora架构视频生成模型,来了! 整个训练流程,包括数据处理、所有训练细节和模型权重,全部开放。 ...
阅读原文

OpenAI开源了:Transformer自动debug工具上线GitHub

机器之心报道 编辑:泽南不用敲代码,就可以快速探索模型结构。最近时常被吐槽不够开源的 OpenAI,突然开放了一次。 今天一早,OpenAI 机器学习研究员 Jan Le...
阅读原文

港中文联合MIT提出超长上下文LongLoRA大模型微调算法

大数据文摘受权转载自将门创投 现阶段,上下文窗口长度基本上成为了评估LLM能力的硬性指标,上下文的长度越长,代表大模型能够接受的用户要求越复杂,近期Ope...
阅读原文
1345678