标签:图像

生图超级外挂!贾佳亚团队提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸组合

更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,香港中文大学终身教授贾佳亚团队提出的这款多模态模型Mini-Ge...
阅读原文

刷爆多模态任务榜单!贾佳亚团队Mini-Gemini登热榜,代码、模型、数据全部开源

机器之心发布 机器之心编辑部Mini-Gemini 堪比 GPT4+DALLE3 王炸组合。更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推...
阅读原文

震惊!国外大厂被爆用竞争对手数据训练模型

点击上方蓝字关注我们“揭露Adobe Firefly背后的秘密:竟利用竞争对手的数据来训练其人工智能模型。文章揭示了Adobe在人工智能内容生成领域的策略和道德挑战,...
阅读原文

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

机器之心专栏 机器之心编辑部InstantID 原班团队推出了风格迁移的新方法InstantStyle。风格化图像生成,也常称为风格迁移,其目标是生成与参考图像风格一致的...
阅读原文

GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式

机器之心发布 机器之心编辑部新一代视觉生成范式「VAR: Visual Auto Regressive」视觉自回归来了!使 GPT 风格的自回归模型在图像生成首次超越扩散模型,并观...
阅读原文

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

机器之心专栏 机器之心编辑部美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了 3D 场景编辑方法 ——CustomNeRF,...
阅读原文

CVPR 2024丨文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF

美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3D场景编辑方法——CustomNeRF,同时支持文本描述和参考图像作为3...
阅读原文

谷歌推出Imagen 2,可生成短视频

点击上方蓝字关注我们“谷歌发布Imagen 2,一款新的AI图像生成工具,旨在为企业用户提供专业服务。尽管面临竞争和深度伪造的担忧,谷歌通过创新功能和安全措施...
阅读原文

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

手机厂商自研的端侧模型功能,会超越纯正的大模型团队吗?编译 | 赖文昕 编辑 | 陈彩娴 大模型的诞生,让科技巨头与创业公司们在新一轮的竞赛中再次鸣枪出发...
阅读原文

Scaling Laws又失灵了?谷歌新研究:扩散模型不是越大越好

大数据文摘授权转载自夕小瑶科技说作者:Zicy 近年来,模型规模呈现出愈来愈大的趋势,越来越多的人相信“力大砖飞”。 OpenAI 虽然没有公布Sora的训练细节,但...
阅读原文

内含教程丨最高可降低 16 倍成本,ComfyUI Stable Cascade 教程已上线,一键部署!

作者:十九 编辑:李宝珠 今年 2 月,Stability AI 开源了文生图模型 Stable Cascade。相比于 Stable Diffusion 1.5,Stable Cascade 可以降低 16 倍成本。20...
阅读原文

Lumiere: Google 发布用于视频生成的时空扩散模型

来源:跳动的数据 Lumiere 一种文本转视频扩散模型,旨在合成具有逼真、多样和连贯运动的视频,这是视频合成领域的一项重大挑战。为此,引入了一种时空 U-Net...
阅读原文

低成本算法,大幅提升视觉分类鲁棒性!悉尼大学华人团队发布全新EdgeNet方法

新智元报道编辑:LRS 【新智元导读】EdgeNet可以处理从干净的自然图像或嘈杂的对抗性图像中提取的边缘,产生鲁棒的特征,具有轻量级、即插即用等特点,能够无...
阅读原文

无需训练,这个新方法实现了生成图像尺寸、分辨率自由

机器之心专栏 机器之心编辑部近日,来自香港中文大学 - 商汤科技联合实验室等机构的研究者们提出了FouriScale,该方法在利用预训练扩散模型生成高分辨率图像...
阅读原文

超10秒高分辨率,北大Open Sora视频生成更强了,还支持华为芯片

机器之心报道 编辑:陈萍北大团队联合兔展发起的 Sora 复现计划,现在有了新成果。OpenAI 在今年年初扔出一项重大研究,Sora 将视频生成带入一个新的高度,很...
阅读原文
1202122232448