标签:编码器

Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降

直播预告 | 今晚7点,「AI新青年讲座」232讲正式开讲,清华大学在读博士刘世隆主讲《LLaVA-Plus:学习使用视觉工具插件的多模态智能体》,欢迎扫码报名。http...
阅读原文

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

机器之心专栏 机器之心编辑部在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑...
阅读原文

小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%

机器之心报道编辑:陈萍、蛋酱对于 2023 年的计算机视觉领域来说,「」(Segment Anything Model)是备受关注的一项研究进展。Meta四月份发布的「分割一切模...
阅读原文

跨语种「AI同传」震撼登场!Meta谷歌连发重大突破,颠覆语音翻译

新智元报道编辑:好困【新智元导读】Meta谷歌接连放出重磅成果!Meta开源无缝交流语音翻译模型,谷歌放出无监督语音翻译重大突破Translation 3。就在Meta AI...
阅读原文

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

机器之心报道作者:陈萍、张倩视频 PS 可以灵活到什么程度?最近,微软的一项研究提供了答案。在这项研究中,你只要给 AI 一张照片,它就能生成照片中人物的...
阅读原文

智能的本质就是压缩?马毅团队5年心血提出「白盒」Transformer, 打开LLM黑盒!

新智元报道编辑:润 桃子【新智元导读】来自UC伯克利,港大等机构的研究人员,开创性地提出了一种「白盒」Transformer结构——CRATE。他们通过将数据从高维度分...
阅读原文

「GPT-4只是在压缩数据」,马毅团队造出白盒Transformer,可解释的大模型要来了吗?

机器之心报道编辑:PandaAGI 到底离我们还有多远?在 ChatGPT 引发的新一轮 AI 爆发之后,一部分研究者指出,大语言模型具备通过观察进行因果归纳的能力,但...
阅读原文

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI能理解搞笑视频笑点在哪里了。AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真...
阅读原文

北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind

AI4Happiness投稿量子位 | 公众号 QbitAI北大联合腾讯打造了一个多模态15边形战士!以语言为中心,“拳打脚踢”视频、音频、深度、红外理解等各模态。具体来说...
阅读原文

两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速

机器之心报道编辑:张倩模型小了,幻觉还减轻了。前段时间,「霉霉大秀中文」的视频在各个社交媒体走红,随后又出现了「郭德纲大秀英语」等类似视频。这些视...
阅读原文

视觉霸主SAM和文图霸主CLIP强强联合!苹果联合UIUC,发布统一视觉模型SAM-CLIP,或掀起多模态新浪潮

夕小瑶科技说 原创作者 | ZenMoore相信大家对 SAM[1] 并不陌生,它是 Meta 此前发布的 Segment Anything Model (分割一切模型)。一经发布便火遍全网震惊世界...
阅读原文

“我有一个大胆的想法”?Meta AI 新技术让你的思维图像一览无余!

夕小瑶科技说 原创作者 | 付奶茶大家之前是否想象过未来的技术进步会带来读脑器,计算界面是否有可能越过触摸屏、键盘进入我们思维内部读取我们脑袋中所想。...
阅读原文

读心术!AI技术解锁大脑思维,你想什么它都知道

点击上方蓝字关注我们图|匡萃彪文|匡萃彪“ Meta公司最新的AI系统,利用磁脑电图技术实时解读大脑中的视觉信息,为医学和人工智能领域带来革命性的突破。然...
阅读原文

谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强

机器之心报道编辑:杜伟、陈萍在多模态(视觉语言)大模型领域,拼参数赢性能的同时,追求参数更小、速度更快、性能更强是另一条研究路径。在大模型时代,视...
阅读原文

谷歌重磅发布 PaLI-3,四两拨千斤!

夕小瑶科技说 原创作者 | 智商掉了一地、ZenMoore视觉语言模型(VLM)的参数规模已经扩展到数百亿,甚至数千亿,这使得其性能持续提升。然而,小规模模型仍然...
阅读原文