标签:序列

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

机器之心报道 编辑:杜伟、陈陈现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型...
阅读原文

一文看懂Mamba,Transformer最强竞争者

机器之心报道 编辑:PandaMamba 虽好,但发展尚早。深度学习架构有很多,但近些年最成功的莫过于 Transformer,其已经在多个应用领域确立了自己的主导地位。 ...
阅读原文

从头设计抗体,腾讯、北大团队预训练大语言模型登Nature子刊

将 ScienceAI设为星标 第一时间掌握 新鲜的 AI for Science 资讯编辑 | KX AI 技术在辅助抗体设计方面取得了巨大进步。然而,抗体设计仍然严重依赖于从血清中...
阅读原文

Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

新智元报道编辑:编辑部 【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均...
阅读原文

AI顶会ICML收了一篇论文:没算法没实验

蔡永强 投稿量子位 | 公众号 QbitAI没有算法没有实验,从2610篇收录论文中脱颖而出,成为唯一一篇纯理论入选2024 ICML Spotlight的论文。 “Vocabulary for Un...
阅读原文

只要一张图就能「还原」绘画过程,这篇论文比爆火的Paints-UNDO实现得更早

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

催化能力提高 3.5 倍!中科院团队基于扩散模型,开发 P450 酶从头设计方法 P450Diffusion

作者:梅菜 编辑:李宝珠,十九 中国科学院天津工业生物技术研究所的新酶设计团队,开发了基于扩散模型和口袋设计原则的 P450 酶从头设计方法 P450Diffusion...
阅读原文

斯坦福博士图解AlphaFold 3:超多细节+可视化还原ML工程师眼中的AF3

新智元报道编辑:乔杨 庸庸 【新智元导读】AlphaFold 3的论文太晦涩?没关系,斯坦福大学的两位博士生「图解」AlphaFold 3 ,将模型架构可视化,同时不遗漏任...
阅读原文

清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024

新智元报道编辑:LRST 好困 【新智元导读】大模型在语言、图像领域取得了巨大成功,时间序列作为多个行业的重要数据类型,时序领域的大模型构建尚处于起步阶...
阅读原文

多篇顶会成果!多人互动中的人体动作与反应生成 | 上海交大徐良博士讲座预告

「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。 AI新青年是加速人工...
阅读原文

kimi chat大模型的200万长度无损上下文可能是如何做到的?

7月11日19点,「智猩猩自动驾驶新青年讲座」第36讲将开讲,主讲理想汽车最新成果:基于MLLM的闭环规划智能体PlanAgent,由理想汽车实习研究员、中国科学院自...
阅读原文

大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

新智元报道编辑:编辑部 【新智元导读】超越Transformer和Mamba的新架构,刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模...
阅读原文

图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响

新智元报道编辑:LRST 好困 【新智元导读】SelfGNN框架结合了图神经网络和个性化自增强学习,能够捕捉用户行为的多时间尺度模式,降低噪声影响,提升推荐系统...
阅读原文

LLM用于时序预测真的不行,连推理能力都没用到

机器之心报道 编辑:panda语言模型真的能用于时序预测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该是否定的。事...
阅读原文

拆分Transformer注意力,韩国团队让大模型解码提速20倍

克雷西 发自 凹非寺量子位 | 公众号 QbitAI只要将注意力切块,就能让大模型解码提速20倍。 来自韩国科学技术研究院、LG和DeepMind的研究人员,提出了一种新的...
阅读原文
123410