标签:图像
高通万卫星:终端侧生成式AI时代已经来临|中国AIGC产业峰会
编辑部 整理自 AIGC峰会量子位 | 公众号 QbitAIAI手机、AI PC硬件新物种正崭露头角。 高通作为技术及芯片厂商,所提供的产品和解决方案正在推动AIGC相关产业...
轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便
陈林 投稿自 凹非寺量子位 | 公众号 QbitAI一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。 上海AI Lab,香港中文...
「个性化」图像生成时代来了!六大顶尖高校联手发布全新Gen4Gen框架
新智元报道编辑:LRS 【新智元导读】文中提出了一个半自动数据集创建管道Gen4Gen,将个性化概念与文本描述结合成复杂的组合,创建了基准测试数据集MyCanvas,...
生成扩散模型漫谈:信噪比与大图生成
导读本文作者为苏剑林,来自月之暗面。这篇文章介绍了 Simple Diffusion,这是一篇探索如何直接在 Pixel 空间中端到端地训练图像扩散模型的工作,利用了信噪...
CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
MLLM真能看懂数学吗?MathVerse来了次摸底测评,放出当天登热榜
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
每周编辑精选|老乡鸡开源「菜品溯源报告」、修复老照片 SUPIR 工具在线使用
号外!号外!老乡鸡的「机密文件」竟然被公开了! 近日,老乡鸡将 20 万字的《老乡鸡菜品溯源报告》向社会全面公开,从食材的源头到烹饪的细节,全都清清楚楚...
Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3
夕小瑶科技说 原创作者 | 任同学Stable Diffusion 3 于 2 月首次宣布作为预览版发布。而今天,StabilityAI 正式推出了 Stable Diffusion 3 和 Stable Diffusi...
CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF
作者 | 美图影像研究院 美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了 3D 场景编辑方法——CustomNeRF,同时支...
梗图理解“天花板”!港中文终身教授贾佳亚团队推出多模态模型:GPT-4+DALL-E 3,王炸组合刷爆榜单
整理 | 傅宇琪 近日,港中文终身教授贾佳亚团队推出了一款名为 Mini-Gemini 的多模态模型,包括 2B 小杯到 34B 的超大杯,一经发布便登上了 PaperWithCode 热...
在线教程|低门槛部署!SUPIR 专治各种图片模糊,还能理解文本描述进行精修
作者:十九 编辑:李宝珠,三羊 封面图来源:SUPIR官网 SUPIR 图像修复工具可应用于模糊风景、人物、动物、游戏画面的修复等。家庭相册中泛黄的老照片,历史...
融合ChatGPT+DALL·E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决
允中 发自 凹非寺量子位 | 公众号 QbitAI在开源社区中把GPT-4+Dall·E 3能⼒整合起来的模型该有多强? 香港中文大学终身教授贾佳亚团队提出多模态模型Mini-Gem...
北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI北大和字节联手搞了个大的: 提出图像生成新范式,从预测下一个token变成预测下一级分辨率,效果超越Sora核心组件Dif...
今日arXiv最热NLP大模型论文:北京大学&快手发布统一的图文视频生成大模型Video-LaVIT
夕小瑶科技说 原创作者 | 芒果引言:探索视频与语言模型的新融合随着多模态大语言模型(LLMs)的新发展,人们越来越关注如何将它们从图像-文本数据扩展到更具...
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!读懂梗图刷爆榜单,代码复现数学函数
新智元报道编辑:编辑部 【新智元导读】贾佳亚团队提出VLM模型Mini-Gemini,堪比GPT-4+DALL-E 3王炸组合,一上线就刷爆了多模态任务榜单!读得懂梗图,做得了...