标签：编码器

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

机器之心报道作者：陈萍、张倩视频 PS 可以灵活到什么程度？最近，微软的一项研究提供了答案。在这项研究中，你只要给 AI 一张照片，它就能生成照片中人物的...

阅读原文

AIGC动态

3年前 (2023)

智能的本质就是压缩？马毅团队5年心血提出「白盒」Transformer，打开LLM黑盒！

新智元报道编辑：润桃子【新智元导读】来自UC伯克利，港大等机构的研究人员，开创性地提出了一种「白盒」Transformer结构——CRATE。他们通过将数据从高维度分...

阅读原文

AIGC动态

3年前 (2023)

「GPT-4只是在压缩数据」，马毅团队造出白盒Transformer，可解释的大模型要来了吗？

机器之心报道编辑：PandaAGI 到底离我们还有多远？在 ChatGPT 引发的新一轮 AI 爆发之后，一部分研究者指出，大语言模型具备通过观察进行因果归纳的能力，但...

阅读原文

AIGC动态

3年前 (2023)

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

梦晨发自凹非寺量子位 | 公众号 QbitAIAI能理解搞笑视频笑点在哪里了。AI回答：这个视频之所以搞笑，在于一个小宝宝正坐在床上努力读书，但他显然还不会真...

阅读原文

AIGC动态

3年前 (2023)

北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind

AI4Happiness投稿量子位 | 公众号 QbitAI北大联合腾讯打造了一个多模态15边形战士！以语言为中心，“拳打脚踢”视频、音频、深度、红外理解等各模态。具体来说...

阅读原文

AIGC动态

3年前 (2023)

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

机器之心报道编辑：张倩模型小了，幻觉还减轻了。前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。这些视...

阅读原文

AIGC动态

3年前 (2023)

视觉霸主SAM和文图霸主CLIP强强联合！苹果联合UIUC，发布统一视觉模型SAM-CLIP，或掀起多模态新浪潮

夕小瑶科技说原创作者 | ZenMoore相信大家对 SAM[1] 并不陌生，它是 Meta 此前发布的 Segment Anything Model (分割一切模型)。一经发布便火遍全网震惊世界...

阅读原文

AIGC动态

3年前 (2023)

“我有一个大胆的想法”？Meta AI 新技术让你的思维图像一览无余！

夕小瑶科技说原创作者 | 付奶茶大家之前是否想象过未来的技术进步会带来读脑器，计算界面是否有可能越过触摸屏、键盘进入我们思维内部读取我们脑袋中所想。...

阅读原文

AIGC动态

3年前 (2023)

读心术！AI技术解锁大脑思维，你想什么它都知道

点击上方蓝字关注我们图｜匡萃彪文｜匡萃彪“ Meta公司最新的AI系统，利用磁脑电图技术实时解读大脑中的视觉信息，为医学和人工智能领域带来革命性的突破。然...

阅读原文

AIGC动态

3年前 (2023)

谷歌视觉语言模型PaLI-3问世，参数仅5B，更小、更快、更强

机器之心报道编辑：杜伟、陈萍在多模态（视觉语言）大模型领域，拼参数赢性能的同时，追求参数更小、速度更快、性能更强是另一条研究路径。在大模型时代，视...

阅读原文

AIGC动态

3年前 (2023)

谷歌重磅发布 PaLI-3，四两拨千斤！

夕小瑶科技说原创作者 | 智商掉了一地、ZenMoore视觉语言模型（VLM）的参数规模已经扩展到数百亿，甚至数千亿，这使得其性能持续提升。然而，小规模模型仍然...

阅读原文

AIGC动态

3年前 (2023)

只需1%参数，效果超越ControlNet，新AI绘画控制大师来袭

西风发自凹非寺量子位 | 公众号 QbitAI“新·AI绘画细节控制大师”ControlNet-XS来啦！敲重点的是参数只要原始ControlNet的1%。就能做到蛋糕口味随意切换：△左...

阅读原文

AIGC动态

3年前 (2023)

免费科研利器！Meta祭出Nougat，PDF格式转换，公式表格精准识别，扫描版文档也可以

新智元报道编辑：桃子【新智元导读】最新科研神器Nougat，可以把PDF中公示、文本提取出来。做研究的童鞋们简直要狂喜！近来，Meta AI研究人员推出一款OCR神器...

阅读原文

AIGC动态

3年前 (2023)

1…3 45