标签:表征

多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」

机器之心报道 编辑:蛋酱最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征,从而成功地生成多种模态(如音频、图像...
阅读原文

只需单卡RTX 3090,低比特量化训练就能实现LLaMA-3 8B全参微调

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

从Claude 3中提取数百万特征,首次详细理解大模型的「思维」

机器之心报道 编辑:陈萍、小舟刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。Anthropic 已经确定了如何在 Claude Sonnet 中表征数...
阅读原文

Ilya离职后第一个动作:点赞了这篇论文,网友抢着传看

西风 发自 凹非寺量子位 | 公众号 QbitAI自Ilya Sutskever官宣离职OpenAI后,他的下一步动作成了大家关注焦点。 甚至有人密切关注着他的一举一动。 这不,Ily...
阅读原文

KAN网络技术最全解析——最热KAN能否干掉MLP和Transformer?

导读本文来自知乎,已获授权,作者为陈巍博士。本文对KAN网络进行了深入解析,涉及KAN网络的基本思路、架构与缩放、可解释性。 陈巍博士,千芯科技董事长,曾...
阅读原文

小模型性能饱和、表现不佳,根源是因为Softmax?

机器之心报道 编辑:陈萍小语言模型的出现是为弥补大语言模型的训练、推理等成本昂贵的缺点,但其自身也存在训练到某个阶段后性能下降的事实 (饱和现象),那...
阅读原文

AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

开箱黑盒LLM!谷歌大一统框架Patchscopes实战教程来了

新智元报道编辑:LRS 【新智元导读】大模型最为人诟病的问题就是不透明、不可解释。谷歌的最新框架Patchscopes可以提供关于模型内部隐藏表征的自然语言解释,...
阅读原文

Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展

新智元报道编辑:LRS 【新智元导读】3D-SceneDreamer采用基于Stable Diffusion的Inpainting模型来对不断对场景未见区域进行补全,并通过单目深度方法来辅助优...
阅读原文

首次攻克「图基础模型」三大难题!港大开源OpenGraph:零样本学习适配多种下游任

新智元报道编辑:LRS 【新智元导读】港大发布通用图基座模型OpenGraph,巧妙从LLM中蒸馏零样本图泛化能力。图学习(Graph Learning)技术能够对复杂的关系数...
阅读原文

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

新智元报道编辑:LRS 好困 【新智元导读】Masked Diffusion Transformer V2在ImageNet benchmark 上实现了1.58的FID score的新SoTA,并通过mask modeling表征...
阅读原文

图灵奖得主LeCun最新专访:为什么物理世界终将成为LLM的「死穴」?

来源:转自机器之心 机器之心编辑部在人工智能领域,很少有像 Yann LeCun 这样的学者,在 65 岁的年龄还能高度活跃于社交媒体。 一直以来,Yann LeCun 都是以...
阅读原文

LeCun最新专访:为什么物理世界终将成为LLM的「死穴」?

机器之心报道 机器之心编辑部在人工智能领域,很少有像 Yann LeCun 这样的学者,在 65 岁的年龄还能高度活跃于社交媒体。 一直以来,Yann LeCun 都是以「直言...
阅读原文

怒斥Sora之后,LeCun放出「视觉世界模型」论文,揭示AI学习物理世界的关键​

机器之心报道 机器之心编辑部Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。 面对 OpenAI 源源不断放出的 Sora 生成视频,LeCun 热衷于寻找其中的...
阅读原文

海马体掌管记忆的神,我是你的破壁人 | 追问顶刊

▷本文为追问特约长文,7000字,阅读需17min。建议收藏或转发朋友圈,分多次阅读,愿有所收获。本文已开快捷转载,如需另外开白,还请留言。记忆是如何形成的...
阅读原文
123