标签:图像
ICCV'23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶
克雷西 萧箫 发自 凹非寺量子位 | 公众号 QbitAI刚刚,计算机视觉巅峰大会ICCV 2023,在法国巴黎正式“开奖”!今年的最佳论文奖,简直是“神仙打架”。例如,获...
微软最新166页测评报告:视觉模态GPT-4V到底有多强?
本文来源:机器之心一周之前,ChatGPT 迎来重大更新,不管是 GPT-4 还是 GPT-3.5 模型,都可以基于图像进行分析和对话。与之对应的,多模态版 GPT-4V 模型相...
NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusion
新智元报道编辑:LRS 好困【新智元导读】不怕多视角图像变化大,MVDiffusion整合图片全局意识,内容一致性更高!逼真的图像生成在虚拟现实、增强现实、视频游...
试过GPT-4V后,微软写了个166页的测评报告,业内人士:高级用户必读
机器之心报道编辑:陈萍、张倩这篇由微软撰写的报告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潜力的人,都值得一读。一周之前,ChatGPT迎来,不管是 GPT...
真实性惊人,谷歌、康奈尔提出真实的图像补全技术RealFill
机器之心报道编辑:XW得到一张好看的照片越来越容易了。假期出游,肯定少不了拍照留念。不过,大部分在景区拍摄的照片或多或少都有些遗憾,背景里不是多了些...
Midjourney V6来袭!性能对标DALL·E 3,争夺地表最强作图AI称号
新智元报道编辑:Lumina【新智元导读】面对OpenAI来势汹汹的DALL·E 3,Midjourney也爆料出了自己下一代更强的版本Midjourney V6,不仅性能对标DALL·E 3,还将...
西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」
新智元报道编辑:LRS【新智元导读】DALL·E 3让我们看到了生成+理解的大语言模型的魔力。就在其发布的同一天,国内的一个新工作引起了社区的关注:DreamLLM。D...
多模态版Llama2上线,Meta发布AnyMAL
机器之心报道编辑:大盘鸡、泽南在多个基准测试中均刷新了业界最好的 zero-shot 性能。一个统一的模型,可以对不同模态输入内容(文本、图像、视频、音频、IM...
微软最新发布:从专家到通用AI代理,一文读懂「多模态基础模型」
视觉是人类和其他生物感知世界的主要渠道之一。人工智能(AI)的一个核心愿景是开发 AI 代理,模仿感知、生成视觉信号,与视觉世界进行互动。近日,微软研究...
对标DALL·E 3!Meta最强文生图Emu技术报告出炉
新智元报道编辑:Lumina【新智元导读】可以说,Meta刚刚发布的Emu,在性能上毫不逊色于DALL·E 3!而Emu取得优异性能背后的原因是「质量调整」。前几天,OpenA...
ChatGPT 终于“联网”了!不再局限于旧数据,新功能即将对所有人开放
整理|冬梅、核子可乐 当地时间周三(9 月 27 日),OpenAI 在 X(前身为推特)上宣布,其聊天机器人产品 ChatGPT 可以通过微软的必应搜索引擎进行网络搜索,...
这套亚运邮票居然用上了AIGC,阿里云和中国邮政让创作这件事变简单了
机器之心报道作者:陈萍邮政之父罗兰・希尔爵士的便士邮政法,引发了一场关于世界邮政的重要革新,同时也促进了世界上第一枚邮票「黑便士」的问世,这一年是 ...
Meta版ChatGPT来了:Llama 2加持,接入必应搜索,小扎现场演示
机器之心报道机器之心编辑部「杀死」OpenAI,小扎这波稳了吗?今天凌晨,一年一度的 Meta Connect 大会上发布了一系列以 AI 为重点的公告。不只有最新的 MR ...
对 GPT-4V(ision) 的第一印象
图文|James Gallagher, Piotr Skalski翻译|匡萃彪在这个指南中,我们将分享我们对GPT-4V图像输入功能的第一印象。我们将进行一系列实验,测试GPT-4V的功能...
文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型
新智元报道编辑:LRS 好困【新智元导读】文字也是一种视觉信息,多模态大语言模型KOSMOS-2.5不光能读懂论文,还能输出markdown格式!当前一个显著的趋势是致...