标签:图像

无需训练,这个新方法实现了生成图像尺寸、分辨率自由

机器之心专栏 机器之心编辑部近日,来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了FouriScale,该方法在利用预训练扩散模型生成高分辨率图像...
阅读原文

Scaling Laws 又失灵了?谷歌新研究:扩散模型不是越大越好

夕小瑶科技说 原创作者 | Zicy近年来,模型规模呈现出愈来愈大的趋势,越来越多的人相信“力大砖飞”。 OpenAI 虽然没有公布Sora的训练细节,但在Sora的技术报...
阅读原文

揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD

机器之心专栏 机器之心编辑部GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力,成为如今最领...
阅读原文

二次元专用超分AI模型APISR:在线可用,入选CVPR

机器之心报道 编辑:Panda《龙珠》、《神奇宝贝》、《新世纪福音战士》等上个世纪开播的动漫是很多人童年回忆的一部分,它们曾给我们带来了充满了热血、友情...
阅读原文

该死,这糟糕的心动感,AI杀疯了!

大数据文摘受权转载自Jack Cui 推荐三个AI工具。 一、Champ 三维参数导引下可控一致的人体图像动画生成项目。只需要一张照片,就能让照片里的人物动起来。 给...
阅读原文

拒绝白人与亚洲人同框,Meta图像生成器的「歧视」,被人挖出来了

机器之心报道 编辑:杜伟AI 生成工具的偏见何时休? 在人工智能构筑的世界中,AI 有时会像人一样存在着某种偏见或倾向性。比如对于大语言模型而言,由于训练...
阅读原文

值得你花时间看的扩散模型教程,来自普渡大学

机器之心报道 编辑:小舟、泽南Diffusion 不仅可以更好地模仿,而且可以进行「创作」。 扩散模型(Diffusion Model)是图像生成模型的一种。有别于此前 AI 领...
阅读原文

首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作

新智元报道编辑:alan 【新智元导读】来自UC berkeley的研究人员开源了首个世界模型,多模态性能优秀,长视频理解吊打GPT-4,同时将上下文长度增加到百万级别...
阅读原文

腾讯开源视频生成新工具,论文还没发先上代码的那种

西风 发自 凹非寺量子位 | 公众号 QbitAI先上代码再发论文,腾讯新开源文生视频工具火了。 名为MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视...
阅读原文

扩散模型攻克算法难题,AGI不远了!谷歌大脑找到迷宫最短路径

新智元报道编辑:桃子 【新智元导读】解决最短路径算法,也能被扩散模型完成。「扩散模型」也能攻克算法难题? 一位博士研究人员做了一个有趣的实验,用「离...
阅读原文

一眼假!GPT4V可有效识别DeepFake图像!

夕小瑶科技说 原创作者 | 芒果引言:AI时代的信息真伪辨识在人工智能迅猛发展的今天,我们面临着前所未有的信息真伪辨识挑战。AI技术,尤其是深度学习模型,...
阅读原文

可编辑的DALL·E 3要来了?一句话就能PS图片

机器之心报道 编辑:陈萍OpenAI 从未放慢前进的脚步,DALL・E 3 将支持对生成后的图片进行再次编辑。可编辑的 DALL・E 3 难道要来了? 在 OpenAI 刚刚更新的...
阅读原文

“计算机视觉女神”被IEEE期刊封杀

西风 发自 凹非寺量子位 | 公众号 QbitAI计算机学术界的女神“Lenna”被IEEE“封杀”了—— IEEE计算机协会宣布,4月1日起不再接收包含该图像的论文。 △Lenna图IEEE...
阅读原文

上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升

白交 发自 凹非寺量子位 | 公众号 QbitAICLIP长文本能力被解锁,图像检索任务表现显著提升! 一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架...
阅读原文

Midjourney角色一致性功能使用报告

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,阿里巴巴通义千问大模型技术负责人周畅,「清华系Sora」生数科技CEO唐家渝,云天励飞“云...
阅读原文
1212223242548