标签:图像
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
机器之心报道 编辑:泽南、蛋酱通义千问的图像推理能力,最近有了大幅提升。 2024 年,大模型领域要卷什么? 如果没有思路的话,不妨看看各家大厂都在押注什...
扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力
明敏 发自 凹非寺量子位 | 公众号 QbitAIPika北大斯坦福联手,开源最新文本-图像生成/编辑框架! 无需额外训练,即可让扩散模型拥有更强提示词理解能力。 面...
AI 也会戴有色眼镜?一文揭露图像生成中的刻板印象
夕小瑶科技说 原创作者|智商掉了一地、Python众所周知,刻板印象具有高度主观性,就好比给出关键词“神探”,不同观众可能会联想到截然不同的答案。 ▲图1 神探...
纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了
机器之心报道 编辑:Panda、蛋酱人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张...
世界顶尖多模态大模型开源!又是零一万物,又是李开复
允中 发自 凹非寺量子位 | 公众号 QbitAI领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷! 距离其首款开源大模型Yi-34B和Yi-6B的发布,仅间隔...
零一万物发布Yi-VL多模态语言模型并开源,测评仅次于GPT-4V
作者 | 褚杏娟 1 月 22 日,零一万物发布 Yi Vision Language(Yi-VL)多模态语言大模型,并正式面向全球开源。Yi-VL 模型基于 Yi 语言模型开发,包括 Yi-VL-...
零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先
机器之心发布 机器之心编辑部1 月 22 日,零一万物 Yi 系列模型家族迎来新成员:Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。据悉,Yi-VL...
一张照片,为深度学习巨头们定制人像图片
机器之心专栏 作者:InstantX 团队主题驱动的文本到图像生成,通常需要在多张包含该主题(如人物、风格)的数据集上进行训练,这类方法中的代表工作包括 Drea...
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
新智元报道编辑:桃子 【新智元导读】多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。Sam Alt...
Midjourney V6超进化,大神网友深度评测来了!画质逼真到可怕,人像图片令人惊呆
新智元报道编辑:Aeneas 【新智元导读】Midjourney大神的超深度测评来了!V6比起V5.2究竟有哪些改进?来感受一下吧。最近,国外的一位名叫Andrei Kovalev的大...
视觉Mamba来了:速度提升2.8倍,内存能省87%
机器之心报道 编辑:陈萍、泽南Vision Mamba 不是个普通模型。号称「全面包围 Transformer」的 Mamba,推出不到两个月就有了高性能的视觉版。 本周四,来自华...
多模态训练,怎么对齐不同模态?
直播预告 | 1月22日晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到...
20%的杨幂+80%的泰勒长什么样?小红书风格化AI来了,可兼容SD和ControlNet
丰色 发自 凹非寺量子位 | 公众号 QbitAI不得不说,现在拍写真真是“简单到放肆”了。 真人不用出镜,不用费心凹姿势、搞发型,只需一张本人图像,等待几秒钟,...
AI生图界扛把子被曝剽窃!复制粘贴好莱坞大片,Midjourney、OpenAI都中枪了
一个单词,让AI生成堪比电影截图的钢铁侠? 编译|香草 编辑|李水青 以下这组图,你能分辨出哪些是电影截图,哪些是AI生成的图像吗? ▲Midjourney生成图像与原...
「文生图」再升级!学习个性化参照,无限生成多样图片,轻松设计玩具建筑
新智元报道编辑:LRS 【新智元导读】将图片集反演到语义空间的分布,生成多样个性化图片或3D渲染,支持灵活文本编辑、多样性控制、概念混合等。最近,来自南...