标签:分辨率

生成扩散模型漫谈:信噪比与大图生成

导读本文作者为苏剑林,来自月之暗面。这篇文章介绍了 Simple Diffusion,这是一篇探索如何直接在 Pixel 空间中端到端地训练图像扩散模型的工作,利用了信噪...
阅读原文

索尼 PS5 Pro 或年底发布,开发者已收到适配通知

PS5 PRO 即将发布‍ 距离索尼发布 PS5 已经过去三年多了,其全球销量也已经达到了惊人的四千多万台。 现在,它的升级款有新消息了。有爆料称今年 11 月份,会...
阅读原文

北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI北大和字节联手搞了个大的: 提出图像生成新范式,从预测下一个token变成预测下一级分辨率,效果超越Sora核心组件Dif...
阅读原文

无需训练,这个新方法实现了生成图像尺寸、分辨率自由

机器之心专栏 机器之心编辑部近日,来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了FouriScale,该方法在利用预训练扩散模型生成高分辨率图像...
阅读原文

揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD

机器之心专栏 机器之心编辑部GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力,成为如今最领...
阅读原文

通用文档理解新SOTA,多模态大模型TextMonkey来了

机器之心专栏 机器之心编辑部最近,华中科技大学和金山的研究人员在多模态大模型 Monkey [1](Li et al., CVPR2024)工作的基础上提出 TextMonkey。在多个场...
阅读原文

北大发起复现Sora,框架已搭!袁粒田永鸿领衔,AnimateDiff大神响应

丰色 发自 凹非寺量子位 | 公众号 QbitAI重磅: 北大团队发起了一项Sora复现计划——Open Sora。 框架、实现细节已出: 初始团队一共13人: 带队的是北大信息工...
阅读原文

一句话让小姐姐为我换了N套衣服,谷歌卷出视频生成新高度,网友:竞赛加码

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI谷歌一出手,又把AI视频生成卷上了新高度。 一句话生成视频,现在在名为Lumiere的AI操刀下,可以是酱婶的: △“阳光明...
阅读原文

华为盘古画画3.0:业界最大的中文文生图模型,效果YYDS!

直播预告 | 1月17日晚7点,「多模态大模型线上闭门会」正式开讲!阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,携手刘兆洋、李彦玮、文束三位青年学者...
阅读原文

清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力

作者 | 凌敏 近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent——CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位(Ground...
阅读原文

突破分辨率极限,字节联合中科大提出多模态文档大模型

克雷西 发自 凹非寺量子位 | 公众号 QbitAI现在连文档都有大模型了,还是高分辨率、多模态的那种!不仅能准确识别出图像里的信息,还能结合用户需求调用自己...
阅读原文

我的眼睛就是尺!80亿参数OtterHD带你「清明上河图」数骆驼!南洋理工华人团队打造

新智元报道编辑:好困【新智元导读】最近,由南洋理工华人团队新提出的80亿参数多模态大模型OtterHD,不仅可以搞定让GPT-4V都发愁的难题,甚至还可以数出来《...
阅读原文

苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024×1024分辨率

机器之心报道编辑:杜伟、小舟习惯了 Stable Diffusion,如今终于又迎来一个俄罗斯套娃式(Matryoshka)Diffusion 模型,还是苹果做的。在生成式 AI 时代,扩...
阅读原文

苹果“套娃”式扩散模型,训练步数减少七成!

克雷西 发自 凹非寺量子位 | 公众号 QbitAI苹果的一项最新研究,大幅提高了扩散模型在高分辨率图像上性能。利用这种方法,同样分辨率的图像,训练步数减少了...
阅读原文
12