标签：分辨率

轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

陈林投稿自凹非寺量子位 | 公众号 QbitAI一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。上海AI Lab，香港中文...

阅读原文

AIGC动态

2年前 (2024)

生成扩散模型漫谈：信噪比与大图生成

导读本文作者为苏剑林，来自月之暗面。这篇文章介绍了 Simple Diffusion，这是一篇探索如何直接在 Pixel 空间中端到端地训练图像扩散模型的工作，利用了信噪...

阅读原文

AIGC动态

2年前 (2024)

索尼 PS5 Pro 或年底发布，开发者已收到适配通知

PS5 PRO 即将发布‍ 距离索尼发布 PS5 已经过去三年多了，其全球销量也已经达到了惊人的四千多万台。现在，它的升级款有新消息了。有爆料称今年 11 月份，会...

阅读原文

AIGC动态

2年前 (2024)

北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token

鱼羊发自凹非寺量子位 | 公众号 QbitAI北大和字节联手搞了个大的：提出图像生成新范式，从预测下一个token变成预测下一级分辨率，效果超越Sora核心组件Dif...

阅读原文

AIGC动态

2年前 (2024)

无需训练，这个新方法实现了生成图像尺寸、分辨率

机器之心专栏机器之心编辑部近日，来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了FouriScale，该方法在利用预训练扩散模型生成高分辨率图像...

阅读原文

AIGC动态

2年前 (2024)

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

机器之心专栏机器之心编辑部GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力，成为如今最领...

阅读原文

AIGC动态

2年前 (2024)

通用文档理解新SOTA，多模态大模型TextMonkey来了

机器之心专栏机器之心编辑部最近，华中科技大学和金山的研究人员在多模态大模型 Monkey [1]（Li et al., CVPR2024）工作的基础上提出 TextMonkey。在多个场...

阅读原文

AIGC动态

2年前 (2024)

北大发起复现Sora，框架已搭！袁粒田永鸿领衔，AnimateDiff大神响应

丰色发自凹非寺量子位 | 公众号 QbitAI重磅：北大团队发起了一项Sora复现计划——Open Sora。框架、实现细节已出：初始团队一共13人：带队的是北大信息工...

阅读原文

AIGC动态

2年前 (2024)

一句话让姐为我换了N套衣服，谷歌卷出视频生成新高度，网友：竞赛加码

鱼羊发自凹非寺量子位 | 公众号 QbitAI谷歌一出手，又把AI视频生成卷上了新高度。一句话生成视频，现在在名为Lumiere的AI操刀下，可以是酱婶的： △“阳光明...

阅读原文

AIGC动态

2年前 (2024)

华为盘古画画3.0：业界最大的中文文生图模型，效果YYDS！

直播预告 | 1月17日晚7点，「多模态大模型线上闭门会」正式开讲！阿里巴巴通义实验室 NLP 高级算法专家严明参与出品，携手刘兆洋、李彦玮、文束三位青年学者...

阅读原文

AIGC动态

2年前 (2024)

清华大学与智谱 AI 联合推出 CogAgent：基于多模态大模型的 GUI Agent，具备视觉问答、视觉定位等能力

作者 | 凌敏近日，清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent——CogAgent，CogAgent 是一个通用的视觉理解大模型，具备视觉问答、视觉定位（Ground...

阅读原文

AIGC动态

2年前 (2024)

突破分辨率极限，字节联合中科大提出多模态文档大模型

克雷西发自凹非寺量子位 | 公众号 QbitAI现在连文档都有大模型了，还是高分辨率、多模态的那种！不仅能准确识别出图像里的信息，还能结合用户需求调用自己...

阅读原文

AIGC动态

3年前 (2023)

我的眼睛就是尺！80亿参数OtterHD带你「清明上河图」数骆驼！南洋理工华人团队打造

新智元报道编辑：好困【新智元导读】最近，由南洋理工华人团队新提出的80亿参数多模态大模型OtterHD，不仅可以搞定让GPT-4V都发愁的难题，甚至还可以数出来《...

阅读原文

AIGC动态

3年前 (2023)

苹果文生图大模型亮相：套娃式扩散，支持1024×1024分辨率

机器之心报道编辑：杜伟、小舟习惯了 Stable Diffusion，如今终于又迎来一个俄罗斯套娃式（Matryoshka）Diffusion 模型，还是苹果做的。在生成式 AI 时代，扩...

阅读原文

AIGC动态

3年前 (2023)

苹果“套娃”式扩散模型，训练步数减少七成！

克雷西发自凹非寺量子位 | 公众号 QbitAI苹果的一项最新研究，大幅提高了扩散模型在高分辨率图像上性能。利用这种方法，同样分辨率的图像，训练步数减少了...

阅读原文

AIGC动态

3年前 (2023)