图像 - 第 21 页

高通万卫星：终端侧生成式AI时代已经来临｜中国AIGC产业峰会

编辑部整理自 AIGC峰会量子位 | 公众号 QbitAIAI手机、AI PC硬件新物种正崭露头角。高通作为技术及芯片厂商，所提供的产品和解决方案正在推动AIGC相关产业...

阅读原文

AIGC动态

2年前 (2024)

轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

陈林投稿自凹非寺量子位 | 公众号 QbitAI一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。上海AI Lab，香港中文...

阅读原文

AIGC动态

2年前 (2024)

「个性化」图像生成时代来了！六大顶尖高校联手发布全新Gen4Gen框架

新智元报道编辑：LRS 【新智元导读】文中提出了一个半自动数据集创建管道Gen4Gen，将个性化概念与文本描述结合成复杂的组合，创建了基准测试数据集MyCanvas，...

阅读原文

AIGC动态

2年前 (2024)

生成扩散模型漫谈：信噪比与大图生成

导读本文作者为苏剑林，来自月之暗面。这篇文章介绍了 Simple Diffusion，这是一篇探索如何直接在 Pixel 空间中端到端地训练图像扩散模型的工作，利用了信噪...

阅读原文

AIGC动态

2年前 (2024)

CVPR 2024高分论文：全新生成式编辑框架GenN2N，统一NeRF转换任务

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

每周编辑精选｜老乡鸡开源「菜品溯源报告」、修复老照片 SUPIR 工具在线使用

号外！号外！老乡鸡的「机密文件」竟然被公开了！近日，老乡鸡将 20 万字的《老乡鸡菜品溯源报告》向社会全面公开，从食材的源头到烹饪的细节，全都清清楚楚...

阅读原文

AIGC动态

2年前 (2024)

Stable Diffusion 3 API 发布！超越Midjourney v6和DALL-E 3

夕小瑶科技说原创作者 | 任同学Stable Diffusion 3 于 2 月首次宣布作为预览版发布。而今天，StabilityAI 正式推出了 Stable Diffusion 3 和 Stable Diffusi...

阅读原文

AIGC动态

2年前 (2024)

CVPR 2024｜文本或图像提示精准编辑 3D 场景，美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF

作者 | 美图影像研究院美图影像研究院（MT Lab）与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了 3D 场景编辑方法——CustomNeRF，同时支...

阅读原文

AIGC动态

2年前 (2024)

梗图理解“天花板”！港中文终身教授贾佳亚团队推出多模态模型：GPT-4+DALL-E 3，王炸组合刷爆榜单

整理 | 傅宇琪近日，港中文终身教授贾佳亚团队推出了一款名为 Mini-Gemini 的多模态模型，包括 2B 小杯到 34B 的超大杯，一经发布便登上了 PaperWithCode 热...

阅读原文

AIGC动态

2年前 (2024)

在线教程｜低门槛部署！SUPIR 专治各种图片模糊，还能理解文本描述进行精修

作者：十九编辑：李宝珠，三羊封面图来源：SUPIR官网 SUPIR 图像修复工具可应用于模糊风景、人物、动物、游戏画面的修复等。家庭相册中泛黄的老照片，历史...

阅读原文

AIGC动态

2年前 (2024)

融合ChatGPT+DALL·E 3，贾佳亚团队新作开源畅玩：识图推理生图一站解决

允中发自凹非寺量子位 | 公众号 QbitAI在开源社区中把GPT-4+Dall·E 3能⼒整合起来的模型该有多强？香港中文大学终身教授贾佳亚团队提出多模态模型Mini-Gem...

阅读原文

AIGC动态

2年前 (2024)

北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token

鱼羊发自凹非寺量子位 | 公众号 QbitAI北大和字节联手搞了个大的：提出图像生成新范式，从预测下一个token变成预测下一级分辨率，效果超越Sora核心组件Dif...

阅读原文

AIGC动态

2年前 (2024)

今日arXiv最热NLP大模型论文：北京大学&快手发布统一的图文视频生成大模型Video-LaVIT

夕小瑶科技说原创作者 | 芒果引言：探索视频与语言模型的新融合随着多模态大语言模型（LLMs）的新发展，人们越来越关注如何将它们从图像-文本数据扩展到更具...

阅读原文

AIGC动态

2年前 (2024)

贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合！读懂梗图刷爆榜单，代码复现数学函数

新智元报道编辑：编辑部【新智元导读】贾佳亚团队提出VLM模型Mini-Gemini，堪比GPT-4+DALL-E 3王炸组合，一上线就刷爆了多模态任务榜单！读得懂梗图，做得了...

阅读原文

AIGC动态

2年前 (2024)

标签：图像