标签:图像
ECCV 2024揭榜,录用率或创新低!2395篇论文中选,网友晒出成绩单
新智元报道编辑:桃子 好困 【新智元导读】两年一届的ECCV录用结果终于揭晓了!刚刚,ECCV组委会公布了录用论文名单,共有2395篇论文被录用。ECCV 2024录用结...
CVPR'24:文生图提示词自动优化,还发现三个小窍门,人大度小满等机构出品
PAE团队 投稿至 凹非寺量子位 | 公众号 QbitAI文生图也有自己的prompt优化工具了。 我们都知道,大模型输出的质量,很大程度上依赖于输入的prompt。尤其在文...
人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文
机器之心报道 机器之心编辑部看看这个时代最伟大 AI 学者的研究脉络。2024 年是生成式 AI 元年,才到 2 月,OpenAI 就用 Sora 把竞争推向了视频生成的新高度...
按需搭配一键叠穿,效果拿下新SOTA!中山大学&字节智创数字人团队提出虚拟试穿新框架
MMTryon团队 投稿量子位 | 公众号 QbitAI多件衣服按指定穿法一键虚拟试穿! 中山大学&字节智创数字人团队提出了一个名为MMTryon的虚拟试穿框架,可以通过...
从零开始,用英伟达T4、A10训练小型文生视频模型,几小时搞定
选自 levelup.gitconnected 作者:Fareed Khan 机器之心编译 编辑:杜伟、大盘鸡很翔实的一篇教程。OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion...
通用多模态人工智能:架构、挑战和机遇综述
来源:专知 多模态模型被认为是未来人工智能进步的关键组成部分。由于基础模型在自然语言处理 (NLP) 和视觉领域的成功,这一领域正迅速发展,并涌现出大量新...
一次可输入多张图像,还能多轮对话!最新开源数据集,让AI更接近现实
刘子煜 投稿量子位 | 公众号 QbitAI大模型对话能更接近现实了! 不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。 这就是最...
看张手绘草图就能合成图形程序,加州伯克利让扩散模型掌握新技能
机器之心报道 编辑:Panda事实证明,扩散模型不仅能用于生成图像和视频,也能用于合成新程序。假设我们给模型一张手绘的「5」状图形,它就能通过不断突变来修...
大型视觉语言模型VLMs一年多的进展与思考
7月2日晚七点,「NVIDIA 机器人技术公开课」正式开讲,NVIDIA解决方案架构总监舒家明将以《NVIDIA Isaac 加速机器人3D视觉感知与机械臂轨迹规划》为主题进行...
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
将图像自动文本化,图像描述质量更高、更准确了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
计算机视觉华人史:权龙与他的学生们
他们见证了 3D 视觉的崛起故事,也是故事的本身。作者 | 赖文昕 编辑 | 陈彩娴 「简单,是终极的复杂。」1群星闪耀时1988 年的冬天,一辆火车从法国出发、开...
首次引入GPT-4o!图像自动评估新基准来啦
DreamBench++团队 投稿量子位 | 公众号 QbitAI面对层出不穷的个性化图像生成技术,一个新问题摆在眼前: 缺乏统一标准来衡量这些生成的图片是否符合人们的喜...
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品
STAR团队 投稿自 凹非寺量子位 | 公众号 QbitAI超越扩散模型!自回归范式在图像生成领域再次被验证—— 中科大、哈工大、度小满等机构提出通用文生图模型STAR。...