标签:表征

神经网络架构「殊途同归」?ICML 2024论文:模型不同,但学习内容相同

新智元报道编辑:乔杨 【新智元导读】深度神经网络有多种规模和架构,大家普遍认为这会影响到模型学习到的抽象表示。然而,UCL两位学者发表在ICML 2024上第一...
阅读原文

Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放

LlamaGen团队 投稿量子位 | 公众号 QbitAI只需Image Tokenizer,Llama也能做图像生成了,而且效果超过了扩散模型。 来自港大和字节的研究人员,提出了基于自...
阅读原文

CVPR'24收录!利用技能学习的扩散策略实现层次化机器人轨迹生成 | 港大梁志烜博士讲座预告

「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。 AI新青年是加速人工...
阅读原文

LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

新智元报道编辑:编辑部 【新智元导读】近日,LeCun和谢赛宁等大佬,共同提出了这一种全新的SOTA MLLM——Cambrian-1。开创了以视觉为中心的方法来设计多模态模...
阅读原文

ICML 2024 | 信号表征指数级强、内存节省超35%,量子隐式表征网络来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

今日arXiv最热大模型论文:大模型对齐告别微调,直接编辑表征空间即可解决

夕小瑶科技说 原创作者 | Richard人工智能技术正在飞速发展,尤其是大语言模型在自然语言处理领域取得了令人瞩目的成就。但同时,我们也面临着如何让语言模型...
阅读原文

语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了

机器之心报道 机器之心编辑部方向完全搞错了?大语言模型(LLM)为什么空间智能不足,GPT-4 为什么用语言以外的数据训练,就能变得更聪明?现在这些问题有 「...
阅读原文

ICML 2024 Oral|外部引导的深度聚类新范式

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」

机器之心报道 编辑:蛋酱最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征,从而成功地生成多种模态(如音频、图像...
阅读原文

只需单卡RTX 3090,低比特量化训练就能实现LLaMA-3 8B全参微调

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

从Claude 3中提取数百万特征,首次详细理解大模型的「思维」

机器之心报道 编辑:陈萍、小舟刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。Anthropic 已经确定了如何在 Claude Sonnet 中表征数...
阅读原文

Ilya离职后第一个动作:点赞了这篇论文,网友抢着传看

西风 发自 凹非寺量子位 | 公众号 QbitAI自Ilya Sutskever官宣离职OpenAI后,他的下一步动作成了大家关注焦点。 甚至有人密切关注着他的一举一动。 这不,Ily...
阅读原文

KAN网络技术最全解析——最热KAN能否干掉MLP和Transformer?

导读本文来自知乎,已获授权,作者为陈巍博士。本文对KAN网络进行了深入解析,涉及KAN网络的基本思路、架构与缩放、可解释性。 陈巍博士,千芯科技董事长,曾...
阅读原文

小模型性能饱和、表现不佳,根源是因为Softmax?

机器之心报道 编辑:陈萍小语言模型的出现是为弥补大语言模型的训练、推理等成本昂贵的缺点,但其自身也存在训练到某个阶段后性能下降的事实 (饱和现象),那...
阅读原文

AI信任危机之后,揭秘预训练如何塑造机器的「可信灵魂」

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文