标签:编码器

模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

Tunnel Try-on:阿里最新视频试衣生成算法

直播预告 | 5月23日晚7点,「智猩猩机器人新青年讲座」第6讲正式开讲,论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展...
阅读原文

AI顶会ICLR,今年只有一家中国大模型公司受邀演讲

金磊 假装发自 维也纳量子位 | 公众号 QbitAI机器学习三大顶会之一的ICLR 2024,正在维也纳如火如荼地举行。 虽然首个时间检验奖、杰出论文奖等“重头戏”已经...
阅读原文

首个ICLR时间检验奖出炉!3万被引论文奠定图像生成范式,DALL-E 3/SD背后都靠它

白交 发自 凹非寺量子位 | 公众号 QbitAI首届ICLR时间检验奖,颁向变分自编码器VAE。 这篇跨越十一年的论文,给后续包括扩散模型在内的生成模型带来重要思想...
阅读原文

今日arXiv最热联邦学习论文:通信成本降低94%,中科院计算所发布个性化联邦学习方法

夕小瑶科技说 原创作者 | Richard引言:你的隐私,联邦来守护!想象一下,未来你的手机就像一位贴心的私人助理,能够洞察你的喜好、日程,甚至预测你的情绪。...
阅读原文

Transformer解码真实场景!Meta推出70M参数SceneScript模型

新智元报道编辑:alan 【新智元导读】近日,来自Meta的研究人员将Transformer用于解码真实世界的场景,并转化为几何表示,效果超越了传统的点云、网格或辐射...
阅读原文

微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTA

夕小瑶科技说 原创作者 | 任同学还记得阿里巴巴那个让照片说话的EMO项目吗?如果还没有看过相关的报道,可以看一下我们之前发过的文章哦: 比阿里EMO抢先开源...
阅读原文

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

机器之心专栏 机器之心编辑部第一个针对「Segment Anything」大模型的域适应策略来了!相关论文已被CVPR 2024 接收。引言 大语言模型(LLMs)的成功激发了计...
阅读原文

剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器

机器之心专栏 机器之心编辑部PreFLMR模型是一个通用的预训练多模态知识检索器,可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late...
阅读原文

CMU朱俊彦、Adobe新作:512×512图像推理,A100只用0.11秒

机器之心报道 编辑:陈萍、杜伟可玩性极强!简笔素描一键变身多风格画作,还能添加额外的描述,这在 CMU、Adobe 联合推出的一项研究中实现了。 作者之一为 CM...
阅读原文

OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱

新智元报道编辑:编辑部 【新智元导读】刚刚,OpenAI超级对齐团队负责人官宣开源Transformer调试器。研究人员不用写代码,就能快速探索LLM的内部构造了!AGI...
阅读原文

OpenAI开源了:Transformer自动debug工具上线GitHub

机器之心报道 编辑:泽南不用敲代码,就可以快速探索模型结构。最近时常被吐槽不够开源的 OpenAI,突然开放了一次。 今天一早,OpenAI 机器学习研究员 Jan Le...
阅读原文

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

新智元报道编辑:桃子 【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘...
阅读原文

解剖Sora:37页论文逆向工程推测技术细节,微软参与,华人团队出品

西风 发自 凹非寺量子位 | 公众号 QbitAISora刚发布不久,就被逆向工程“解剖”了?! 来自理海大学、微软研究院的华人团队发布了首个Sora相关研究综述,足足有...
阅读原文

Stable Diffusion 解读(一):回顾早期工作

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场;分会场将进行具身...
阅读原文