标签：注意力

250行代码从头搭建Llama 3，GitHub一天4.6k星！Karpathy大赞

新智元报道编辑：乔杨好困【新智元导读】Llama 3发布一个月后，一位开发者在GitHub上创建了名为「从头开始实现Llama 3」的项目，引起了开源社区的广泛关注...

阅读原文

AIGC动态

1年前 (2024)

从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

西风发自凹非寺量子位 | 公众号 QbitAI让大神Andrej Karpathy一键三连❤️（点赞+转发+评论），一个教你从头开始实现Llama3的代码库爆火。 X上转赞收藏量超6....

阅读原文

AIGC动态

1年前 (2024)

Karpathy称赞，从零实现LLaMa3项目爆火，半天1.5k star

机器之心报道编辑：杜伟、陈萍项目中代码很多很全，值得细读。一个月前，Meta 发布了开源大模型 llama3 系列，在多个关键基准测试中优于业界 SOTA 模型，并...

阅读原文

AIGC动态

1年前 (2024)

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

选自Lil’Log 作者：Lilian Weng 机器之心编译编辑：Panda过去几年来，扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务...

阅读原文

AIGC动态

1年前 (2024)

Meta无限长文本大模型来了：参数仅7B，已开源

机器之心报道编辑：泽南、陈萍谷歌之后，Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意...

阅读原文

AIGC动态

2年前 (2024)

华为诺亚频域LLM「帝江」：仅需1/50训练成本，7B模型媲美LLaMA，推理加速5倍

4月18-19日，由智猩猩与智东西共同主办的2024中国生成式AI大会将在北京JW万豪酒店举行。大会完整议程出炉，55位嘉宾出席！免费票申请通道即将关闭，大会通票...

阅读原文

AIGC动态

2年前 (2024)

剑指Sora！120秒超长AI视频模型免费开玩

新智元报道编辑：alan 【新智元导读】近日，Picsart AI Resarch等团队联合发布了StreamingT2V，可以生成长达1200帧、时长为2分钟的视频，一举超越Sora。同时...

阅读原文

AIGC动态

2年前 (2024)

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

机器之心报道编辑：小舟、陈萍不知 Gemini 1.5 Pro 是否用到了这项技术。谷歌又放大招了，发布下一代 Transformer 模型 Infini-Transformer。 Infini-Trans...

阅读原文

AIGC动态

2年前 (2024)

Transformer并非万能：Jamba在效率和吞吐量上大幅超越

点击上方蓝字关注我们“AI21 Labs推出Jamba，一种结合SSM与transformers的新AI模型，旨在提高处理长上下文的效率。Jamba在特定推理任务上超越传统模型，尽管在...

阅读原文

AIGC动态

2年前 (2024)

OpenAI公关跳起来捂他嘴：Transformer作者公开承认参与Q*！｜八位作者最新专访

梦晨发自凹非寺量子位 | 公众号 QbitAITransformer作者中唯一去了OpenAI的那位，公开承认了：他参与了Q*项目，是这项新技术的发明者之一。这几天除了英伟...

阅读原文

AIGC动态

2年前 (2024)

7人创业、1人投敌！Transformer 八子谷歌坐冷板凳5年再成老黄座上宾

作者｜Steven Levy 译者｜核子可乐策划｜冬梅导读： 3月21日，GTC AI大会，黄仁勋对话7位Transformer框架论文作者。他们认为，AI行业被困在了六七年前的原...

阅读原文

AIGC动态

2年前 (2024)

Transformer七子重聚GTC，老黄亲自赠送签名版DGX-1！7年奠基之作背后佚事揭秘

新智元报道编辑：编辑部【新智元导读】Transformer奠基之作拯救了现在的AI。就在GTC大会上，老黄聚齐了其中的七位作者，开启了一场深度访谈。GTC大会上，老...

阅读原文

AIGC动态

2年前 (2024)

全球首个类Sora开源复现方案来了！全面公开所有训练细节和模型权重

明敏发自凹非寺量子位 | 公众号 QbitAI全球首个开源的类Sora架构视频生成模型，来了！整个训练流程，包括数据处理、所有训练细节和模型权重，全部开放。 ...

阅读原文

AIGC动态

2年前 (2024)

OpenAI开源了：Transformer自动debug工具上线GitHub

机器之心报道编辑：泽南不用敲代码，就可以快速探索模型结构。最近时常被吐槽不够开源的 OpenAI，突然开放了一次。今天一早，OpenAI 机器学习研究员 Jan Le...

阅读原文

AIGC动态

2年前 (2024)

港中文联合MIT提出超长上下文LongLoRA大模型微调算法

大数据文摘受权转载自将门创投现阶段，上下文窗口长度基本上成为了评估LLM能力的硬性指标，上下文的长度越长，代表大模型能够接受的用户要求越复杂，近期Ope...

阅读原文

AIGC动态

2年前 (2024)

1…3 456 7 8