标签:图片

Nature:2023年度最佳科学图片!

来源:高分子科学前沿2022年,詹姆斯·韦伯太空望远镜由美国宇航局投入使用,带来一系列引人入胜的宇宙景象,震撼人心。时至2023年,这一高科技设备持续发挥其...
阅读原文

随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力

新智元报道编辑:LRS【新智元导读】本文介绍了一个名为Alph-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的R...
阅读原文

「一键脱衣」的 AI,连孩子都不放过

Deepfake变普通了《心灵奇旅》里说,寻找海洋之时,应该知道自己已经生活在水里。AI 之于人类社会似乎也是这样。今年以来,各行各业的「iPhone」时刻不断上演...
阅读原文

北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

一个北大投稿 发送至 凹非寺量子位 | 公众号 QbitAI训完130亿参数通用视觉语言大模型,只需3天!北大和中山大学团队又出招了——在最新研究中,研究团队提出了...
阅读原文

太可怕了!AI虚假图片已经达到了新闻摄影获奖的程度…

夕小瑶科技说 原创作者 | 杨灿首先请大家看一副入围新闻摄影获奖的作品:战争期间,一名受伤的以色列年轻女子正痛苦地抓着士兵的手臂。这抓拍的角度,这女子...
阅读原文

训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解

机器之心专栏机器之心编辑部北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征,该框架使得一个 LLM 能...
阅读原文

视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效

机器之心报道机器之心编辑部AI 生成的视频终于能动了。最近,除了大语言模型继续持续刷屏,视频生成技术也取得了重大进展,多家公司相继发布了新模型。首先,...
阅读原文

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

新智元报道编辑:好困【新智元导读】最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Vid...
阅读原文

真正实现一步文生图,谷歌UFOGen极速采样,生成高质量图像

机器之心专栏机器之心编辑部最近一年来,以 Stable Diffusion 为代表的一系列文生图扩散模型彻底改变了视觉创作领域。数不清的用户通过扩散模型产生的图片提...
阅读原文

对标 Switch,升级挤牙膏,这台刚更新的掌机背刺老玩家了吗

掌机的缓慢前行10 号凌晨的一条游戏主机新闻,引起了两拨人的叫喊。Steam Deck OLED 官宣新闻. 图片来自:theverge.com游戏公司 Valve 在官网推出了全新 Stea...
阅读原文

DALL·E 3=Midjourney+PS?OpenAI悄悄推出「种子」功能,生图之后还能精修

新智元报道编辑:润【新智元导读】OpenAI又再暗暗更新了,新推出的种子功能可以让用户精修自己生成的图片,添加元素,改变视角,调光修色都没问题!今天网上...
阅读原文

更高清写实的人体生成模型HyperHuman来了,基于隐式结构扩散,刷新多项SOTA

机器之心专栏作者:Snap研究院,香港中文大学,香港大学,南洋理工大学论文地址: https://arxiv.org/pdf/2310.08579.pdfGithub 地址: https://github.com/sna...
阅读原文

Midjourney重大升级,网页版正式上线!生成图像真实清晰

新智元报道编辑:贝果【新智元导读】AI图像Midjourney进行了重大更新,将其服务完全迁移到浏览器上,以提供更多功能和改善用户体验。就在昨天,AI图像Midjour...
阅读原文

GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」

夕小瑶科技说 原创作者 | 付奶茶、王二狗大离谱!我用GPT-4(V)和DALL·E 3 「混合双打」之下,生成了一张张 牛鲨🐂🦈图,那么问题来了,这到底是牛还是鲨?起因...
阅读原文

GPT-4V被曝离谱bug:突然执行神秘代码,空白图片读出打折信息,网友们都看呆了

丰色 明敏 发自 凹非寺量子位 | 公众号 QbitAIGPT-4V出现惊天bug?!原本只是让它分析一张图片,结果它直接犯了致命安全问题,把聊天记录都给抖落出来了。只...
阅读原文