标签:图像
Midjourney和DALL·E被爆严重抄袭!钢铁侠、阿凡达等数百个作品被抄的裤衩都不剩…
夕小瑶科技说 原创作者 | 王二狗大家好,我是二狗。 就在一周前,《纽约时报》刚向法院起诉OpenAI 和微软侵犯版权!要求销毁 ChatGPT 以及任何其他使用《纽...
谷歌提出「边界注意力」模型,实现超越像素级检测精度!微弱边界也逃不过
夕小瑶科技说 原创作者 | 智商掉了一地、Python有些情况下,当面临分辨率较低的图像时,可能会在进行诸如目标检测和图像分割等任务时遇到一些挑战和阻碍。这...
只需2分钟,单视图3D生成又快又好!北大等提出全新Repaint123方法
新智元报道编辑:LRS 好困 【新智元导读】将2D扩散模型的强大图像生成能力与再绘策略的纹理对齐能力结合起来,Repaint123能够在2分钟内从零开始生成具有多视...
Midjourney文本渲染新升级,与DALL·E 3大比拼,看看谁更强
机器之心报道 编辑:大盘鸡文字渲染哪家强,今天你来做裁判。如果文生图中也有「敬业」代表,那 Midjourney 绝对能够提名。从发布开始,每次更新都给我们不一...
谷歌DeepMind最新研究:对抗性攻击对人类也有效,人类和AI都会把花瓶认成猫!
新智元报道编辑:alan 【新智元导读】神经网络由于自身的特点而容易受到对抗性攻击,然而,谷歌DeepMind的最新研究表明,我们人类的判断也会受到这种对抗性扰...
1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品
张俊武 唐振宇 投稿量子位 | 公众号 QbitAI只需两分钟,玩转图片转3D! 还是高纹理质量、多视角高一致性的那种。 不管是什么物种,输入时的单视图图像还是这...
攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析
新智元报道编辑:LRS 好困 【新智元导读】解决扩散模型「不识字」的问题,Textdiffuser采用两阶段(布局+图像)生成框架,显著提升了相关性能的指标!近年来...
看见这张图没有,你就照着画:谷歌图像生成AI掌握多模态指令
机器之心报道 编辑:Panda用图 2 的风格画图 1 的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了!通过引入指令微调技术,多模态...
因为它,马斯克和兵马俑都跳起了《科目三》
一张照片就能让马斯克、梅西等各大名人魔性跳舞,甚至连火爆全网的科目三都能安排上。 这可不是什么高深 AI 技术,阿里通义千问移动端新增的「全民舞王」功能...
谷歌推出创新SynCLR技术:借助AI生成的数据实现高效图像建模,开启自我训练新纪元!
夕小瑶科技说 原创作者 | 付奶茶谷歌推出了一种创新性的合成图像框架,这一框架独特之处在于它完全不依赖真实数据。这个框架首先从合成的图像标题开始,然后...
博士后招聘|波士顿学院Donglai Wei教授,生物医学图像分析方向
新智元报道编辑:LRS 【新智元导读】波士顿学院博士后招聘,要求计算机相关博士,研究方向为生物医学图像分析,重点关注病理图像和三维显微图像。波士顿学院...
AI 立大功!神经网络对太阳图像进行三维重建,首次揭示太阳极点
作者:加零 编辑:李宝珠、三羊 科罗拉多州国家大气研究中心 (NCAR) 的研究人员利用 NeRFs 神经网络,将太阳的二维图像转换成三维重建图像,首次揭示了太阳的...
谷歌发布Prompt Expansion框架,让文生图更轻松!
夕小瑶科技说 原创作者 | 付奶茶、Python尽管文本生成图像(Text-to-Image Generation)模型功能强大,但有效地利用它们依然是一项挑战,因为传统使用方法往...
清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力
作者 | 凌敏 近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent——CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位(Ground...
给3D资产生成高清纹理,腾讯让AI扩充游戏皮肤
机器之心专栏 机器之心编辑部近日,腾讯宣布推出一项名为 Paint3D 的技术,它能够根据文本或图像输入,为无纹理的 3D 模型生成高分辨率、无光照且多样化的纹...