标签:编码器

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

机器之心报道作者:陈萍、张倩视频 PS 可以灵活到什么程度?最近,微软的一项研究提供了答案。在这项研究中,你只要给 AI 一张照片,它就能生成照片中人物的...
阅读原文

智能的本质就是压缩?马毅团队5年心血提出「白盒」Transformer, 打开LLM黑盒!

新智元报道编辑:润 桃子【新智元导读】来自UC伯克利,港大等机构的研究人员,开创性地提出了一种「白盒」Transformer结构——CRATE。他们通过将数据从高维度分...
阅读原文

「GPT-4只是在压缩数据」,马毅团队造出白盒Transformer,可解释的大模型要来了吗?

机器之心报道编辑:PandaAGI 到底离我们还有多远?在 ChatGPT 引发的新一轮 AI 爆发之后,一部分研究者指出,大语言模型具备通过观察进行因果归纳的能力,但...
阅读原文

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI能理解搞笑视频笑点在哪里了。AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真...
阅读原文

北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind

AI4Happiness投稿量子位 | 公众号 QbitAI北大联合腾讯打造了一个多模态15边形战士!以语言为中心,“拳打脚踢”视频、音频、深度、红外理解等各模态。具体来说...
阅读原文

两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速

机器之心报道编辑:张倩模型小了,幻觉还减轻了。前段时间,「霉霉大秀中文」的视频在各个社交媒体走红,随后又出现了「郭德纲大秀英语」等类似视频。这些视...
阅读原文

视觉霸主SAM和文图霸主CLIP强强联合!苹果联合UIUC,发布统一视觉模型SAM-CLIP,或掀起多模态新浪潮

夕小瑶科技说 原创作者 | ZenMoore相信大家对 SAM[1] 并不陌生,它是 Meta 此前发布的 Segment Anything Model (分割一切模型)。一经发布便火遍全网震惊世界...
阅读原文

“我有一个大胆的想法”?Meta AI 新技术让你的思维图像一览无余!

夕小瑶科技说 原创作者 | 付奶茶大家之前是否想象过未来的技术进步会带来读脑器,计算界面是否有可能越过触摸屏、键盘进入我们思维内部读取我们脑袋中所想。...
阅读原文

读心术!AI技术解锁大脑思维,你想什么它都知道

点击上方蓝字关注我们图|匡萃彪文|匡萃彪“ Meta公司最新的AI系统,利用磁脑电图技术实时解读大脑中的视觉信息,为医学和人工智能领域带来革命性的突破。然...
阅读原文

谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强

机器之心报道编辑:杜伟、陈萍在多模态(视觉语言)大模型领域,拼参数赢性能的同时,追求参数更小、速度更快、性能更强是另一条研究路径。在大模型时代,视...
阅读原文

谷歌重磅发布 PaLI-3,四两拨千斤!

夕小瑶科技说 原创作者 | 智商掉了一地、ZenMoore视觉语言模型(VLM)的参数规模已经扩展到数百亿,甚至数千亿,这使得其性能持续提升。然而,小规模模型仍然...
阅读原文

只需1%参数,效果超越ControlNet,新AI绘画控制大师来袭

西风 发自 凹非寺量子位 | 公众号 QbitAI“新·AI绘画细节控制大师”ControlNet-XS来啦!敲重点的是参数只要原始ControlNet的1%。就能做到蛋糕口味随意切换:△左...
阅读原文

免费科研利器!Meta祭出Nougat,PDF格式转换,公式表格精准识别,扫描版文档也可以

新智元报道编辑:桃子【新智元导读】最新科研神器Nougat,可以把PDF中公示、文本提取出来。做研究的童鞋们简直要狂喜!近来,Meta AI研究人员推出一款OCR神器...
阅读原文
1345