标签:图像

跟着开源的InternVL,学习如何做自己的GPT-4V

随着人工智能生成内容(AIGC)的快速发展,多模态大型语言模型(MLLM)在理解和生成结合视觉与语言的信息方面展现出巨大潜力。然而,现有的开源MLLM与商业模...
阅读原文

中山大学与联想团队发布 ConsistentID,单张照片即可成为百变超人

上传一张个人照片就能瞬间变换身份,这不再是科幻片中的情节。最近,图像生成技术经历了显著的进化,这是由基于扩散的, 文本到图像大型模型的出现和进步驱动...
阅读原文

在线教程|图灵奖得主Yann LeCun盛赞!小红书开源InstantID,一张原图即可定制多种风格写真

作者:十九 编辑:李宝珠,三羊 来自小红书的 95 后工程师联合北大团队发布了开源项目「InstantID」,只需上传一张照片,就能轻松定制多种风格的 AI 写真。不...
阅读原文

立即预约 Google I/O 2024 会议直播!百科详解一夜爆火的全新神经网络架构 KAN

📢 Google I/O 2024 Keynote 主题演讲将于 5 月 15 日(下周三)凌晨 1 点举行,届时 HyperAI超神经会在视频号和 B 站实时转播,立即预约不错过↓ ‍ 直播结束后...
阅读原文

ControlNet作者新作爆火:P照片换背景不求人,AI打光完美融入

·衡宇 发自 凹非寺量子位 | 公众号 QbitAIControlNet作者新作,玩儿得人直呼过瘾,刚开源就揽星1.2k。 用于操纵图像照明效果的IC-Light,全称lmposing Consis...
阅读原文

超分辨率专题 | 3 种方法、4 个教程、10 个数据集,一文 Get 核心知识点

作者:十九 编辑:李宝珠,三羊 超分辨率能够克服或补偿由于图像采集系统、采集环境本身限制而导致的成像模糊、图像质量低下等问题,提升图像分辨率,为特征...
阅读原文

在线教程|二次元的福音!一键部署APISR,动漫画质飞跃升级

作者:十九 编辑:李宝珠,三羊 APISR 不仅可以恢复并增强低质量、低分辨率的动漫图像和视频源,还能处理各种图像退化问题(如模糊、噪声、压缩伪影等),提...
阅读原文

AI正面临一个难以突破的硬性天花板

近几个月来,围绕人工智能的炒作达到了疯狂的程度。据说,特斯拉将在一两年内完全实现自动驾驶,人工智能明年将比人类更聪明,到2040年,十亿台AI驱动的机器...
阅读原文

HuggingFace烧钱做了一大批实验,揭示多模态大模型哪些trick真正有效

夕小瑶科技说 原创作者 | 谢年年构建多模态大模型时有很多有效的trick,如采用交叉注意力机制融合图像信息到语言模型中,或直接将图像隐藏状态序列与文本嵌入...
阅读原文

【图像分割数据集汇总】字节发布 COCONut 入选 CVPR 2024,立即体验 Segment Anything 分割万物!

随着计算机视觉技术的不断发展,图像分割在诸多领域展现出重要的应用价值。近年来,各种图像分割数据集如雨后春笋般涌现。上个月,字节跳动发布了首个大规模...
阅读原文

史上最丑AI生图爆火!成了赚钱好生意,Remini玩法解读

“黏土AI”一夜之间火了,霸屏五一假期,登顶App免费榜。 作者|李水青 编辑|心缘 智东西5月6日报道,今年五一假期,一个名为“Remini”的AI修图App火遍全网。 用...
阅读原文

上海AI Lab开源首个可替代GPT-4V的多模态大模型

夕小瑶科技说 原创作者 | 任同学与开源和闭源模型相比,InternVL 1.5 在 OCR、多模态、数学和多轮对话等 18 个基准测试中的 8 个中取得了最先进的结果。 上海...
阅读原文

LeCun上月球?南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

机器之心报道 编辑:杨文、亚鹂有了 StoryDiffusion,更加一致性的图像和视频生成得到了保障。两天前,图灵奖得主 Yann LeCun 转载了「自己登上月球去探索」...
阅读原文

CVPR 2024 Highlight | 基于单曝光压缩成像,不依赖生成模型也能从单张图像中重建三维场景

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文
1171819202148