标签:区域

1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品

张俊武 唐振宇 投稿量子位 | 公众号 QbitAI只需两分钟,玩转图片转3D! 还是高纹理质量、多视角高一致性的那种。 不管是什么物种,输入时的单视图图像还是这...
阅读原文

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

新智元报道编辑:LRS【新智元导读】本文介绍了一个名为Alph-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的R...
阅读原文

信仰的归信仰,商业的归商业|AGI是信仰的游戏,还是商业的操纵?|这场闹剧是GPT-5的内部觉醒,还是造物主的人性精妙设计?

点击上方蓝字关注我们图:在这个月初的一个视频访谈中,Ilya谈到最新的GPT进展给他最震惊的突破是:当和GPT对话时,有那种被理解的感觉。“Elon Musk在周末的O...
阅读原文

Uber 将 4000 多个微服务迁移到新的多云平台 Up

作者 | Rafal Gancarz 译者 | 明知山 策划 | 丁晓昀 Uber 将其大部分容器化微服务从µDeploy 迁移到一个叫作 Up 的新多云平台,准备将相当一部分计算迁移到云...
阅读原文

在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

机器之心报道编辑:杜伟、小舟全新视觉提示方法 SoM(Set-of-Mark),让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。最近一段时间,我们见...
阅读原文

AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队

Michael 投稿自 凹非寺量子位 | 公众号 QbitAI谷歌人机验证已经拦不住AI了!最新多模态大模型,能轻松找到图中所有交通信号灯,还准确圈出了具体位置。表现直...
阅读原文

只动手不动口,或只动口不动手,你真能做到吗?

机器之心编译选自量子杂志编辑:Rome你是否注意过自己动手聚精会神做事情时会不自觉的伸出舌头,又或者一些歌手经常会在唱歌的时候,手也会不自觉的在空中舞...
阅读原文

无惧图像中的文字,TextDiffuser提供更高质量文本渲染

机器之心专栏机器之心编辑部近几年来,Text-to-Image 领域取得了巨大的进展,特别是在 AIGC(Artificial Intelligence Generated Content)的时代。随着 DALL...
阅读原文
12