标签:上下文

LLama 405B 技术报告解读

9月6-7日,2024全球AI芯片峰会将在北京召开。目前,AMD人工智能事业部高级总监王宏强,清华大学交叉信息研究院助理教授、北极雄芯创始人马恺声,珠海芯动力创...
阅读原文

击败GPT-4o的开源模型如何炼成?关于Llama 3.1 405B,Meta都写在这篇论文里了

机器之心报道 机器之心编辑部经历了提前两天的「意外泄露」之后,Llama 3.1 终于在昨夜由官方正式发布了。 Llama 3.1 将上下文长度扩展到了 128K,拥有 8B、7...
阅读原文

Meta 发布其最强大的 AI 模型 Llama 3.1,具有 4050亿参数

点击上方蓝字关注我们“Meta 发布了史上最大的开源 AI 模型 Llama 3.1 405B,拥有 4050 亿参数,支持多语言文本处理,推动生成性 AI 发展。Meta 刚刚发布了史...
阅读原文

英伟达Mistral AI联袂出击!120亿小模型王者强势登场,碾压Llama 3单张4090可跑

新智元报道编辑:耳朵 桃子 【新智元导读】GPT-4o mini头把交椅还未坐热,Mistral AI联手英伟达发布12B参数小模型Mistral Nemo,性能赶超Gemma 2 9B和Llama 3...
阅读原文

我们从过去一年的大模型构建过程中学到的经验

作者 | Eugene Yan、Bryan Bischof、Charles Frye、Hamel Husain、Jason Liu 和 Shreya Shankar 翻译 | 王强 策划 | 褚杏娟 当下正是使用大型语言模型(LLM...
阅读原文

小模型卷起来了:Mistral联合英伟达开源12B小模型,128k上下文

机器之心报道 机器之心编辑部小模型,正在成为 AI 巨头的新战场。今天凌晨,OpenAI 突然发布了 GPT-4o 的迷你版本 ——GPT-4o mini。这个模型替代了原来的 GPT-...
阅读原文

开源仅 1 天就斩获近万星!超越 RAG、让大模型拥有超强记忆力的 Mem0 火了!

整理 | Tina 最近,拿到 OpenAI 370 万美元投资的一款 AI 聊天应用在 App Store 上线了。国内外 AI 聊天工具层出不穷、屡见不鲜,为什么这款应用却能受到 Op...
阅读原文

视频上下文学习!大模型学会“照猫画虎”生成,结合模拟器还能精准控制真实环境交互,来自MSRA

Vid-ICL团队 投稿量子位 | 公众号 QbitAI视频生成也能参考“上下文”?! MSRA提出视频上下文学习(Video In-Context Learning, Vid-ICL),让大模型学会“照猫...
阅读原文

原作亲自下场!Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳

新智元报道编辑:编辑部 【新智元导读】最近,7B小模型又成为了AI巨头们竞相追赶的潮流。继谷歌的Gemma2 7B后,Mistral今天又发布了两个7B模型,分别是针对ST...
阅读原文

斯坦福提出大模型最强架构TTT,超越Transformers

夕小瑶科技说 原创作者 | 谢年年在Transformer被提出以前,以LSTMs为代表的RNNs网络结构由于计算简单、擅长处理序列数据常被用作NLP领域的基础架构。但受其结...
阅读原文

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

作者 | 赵明华 近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。 图 1 所有序列建模层都可以表示...
阅读原文

新国立祭出视频生成“无限宝石“:2300帧仅需5分钟,提速100倍

夕小瑶科技说 原创作者 | Axe_越天下武功唯快不破—— 火云邪神 前一段时间,想必大家都有被各种文生视频给刷屏,但当看完之后,不知道大家是否都有一种意犹未...
阅读原文

深度解析RAG大模型知识冲突,清华西湖大学港中文联合发布

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型

梦晨 发自 凹非寺量子位 | 公众号 QbitAI新架构,再次向Transformer发起挑战! 核心思想:将RNN中的隐藏状态换成可学习的模型。 甚至在测试时都可以学习,所...
阅读原文

大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

新智元报道编辑:编辑部 【新智元导读】超越Transformer和Mamba的新架构,刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模...
阅读原文
1234515