标签:图像

ViT-22B被取代了!商汤开源60亿视觉参数大模型InternVL刷爆多模态榜单!

论文链接: https://arxiv.org/abs/2312.14238开源代码: https://github.com/OpenGVLab/InternVL01引言大型语言模型(LLMs)在开放世界语言任务中展现出令人...
阅读原文

GPT-4V“大翻车”!把海豹识别成狗!分不清炸鸡和泰迪,葫芦娃也数不明白…

夕小瑶科技说 原创作者 | 付奶茶、王二狗最近听说,“遥遥领先”的GPT-4V翻大车了!竟然把海豹识别成狗!而且还分不清炸鸡和泰迪! 下面是GPT-4V对狗子和海豹的...
阅读原文

回顾2023,那些令 AI 圈大地震的瞬间!

夕小瑶科技说 原创作者 | 王二狗一年前,ChatGPT 横空出世,“大模型”成为全球科技赛道绝对的“C位”。 这一年,国外微软OpenAI和谷歌DeepMind等“众神”打架,国...
阅读原文

真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型

新智元报道编辑:Aeneas 好困 【新智元导读】首个视觉、语言、音频和动作多模态模型Unified-IO 2来了!它能够完成多种多模态的任务,在超过30个基准测试中展...
阅读原文

复旦发布 FoodLMM,食材辨别/菜谱生成/营养分析样样行!

夕小瑶科技说 原创作者 | 智商掉了一地、Python想要准确分辨出泰餐里的玉米笋?想吃美食但又怕一不小心无法控制卡路里而吃胖?食材在手但不知道该怎么搭配能...
阅读原文

字节多模态大模型PixelLM:高效像素级推理,无需依赖SAM

梦晨 发自 凹非寺量子位 | 公众号 QbitAI多模态大模型爆发,准备好进入图像编辑、自动驾驶和机器人技术等细粒度任务中实际应用了吗? 目前大多数模型的能力还...
阅读原文

文生视频平台 Pika 1.0 圣诞炫技,网友使用测评:基本符合期望

作者 | 核子可乐、Tina 近日,文生视频公司 Pika 推出 Pika1.0,能够生成和编辑 3D 动画、动漫、卡通和电影等各种风格的视频,一经推出便在各大社交媒体上...
阅读原文

全球最强「开源版Gemini」诞生!全能多模态模型Emu2登热榜,多项任务刷新SOTA

新智元报道编辑:桃子 好困 【新智元导读】最强的全能多模态模型来了!就在近日,智源研究院重磅发布了开源界的「Gemini」——Emu2,一口气刷新多项SOTA。过去...
阅读原文

微软悄然发布AI聊天机器人Copilot,挑战ChatGPT Plus地位

点击上方蓝字关注我们“微软最新推出的Copilot应用整合了GPT-4和DALL-E 3的语言与图像生成能力,标志着其进一步在AI动力移动应用领域扩展。该免费应用在文本回...
阅读原文

一秒100张实时生成二次元老婆照!高吞吐低延迟低功耗|登顶GitHub热榜、已开源

西风 发自 凹非寺量子位 | 公众号 QbitAI单RTX4090,每秒生成100张图! 一种专为实时交互式图像生成而设计的一站式解决方案,登顶GitHub热榜。 方案名为Strea...
阅读原文

英伟达官方盘点2023年10大研究,从CV到AI,从智能体到生成式AI

英伟达官方盘点2023年10大研究,从CV到AI,从智能体到生成式AI。英伟达不但现实世界中用GPU收割全世界,也在虚拟世界中用一项项匪夷所思的技术展开了一场革命...
阅读原文

一手测评丨Midjourney V6 上线,现在绘图可以说人话了

省流:Midjourney 在2023年12月21日发布了 V6 版本,是 Midjourney 团队从头开始训练的第三个模型。目前 V5.2 和 V6 之间暂无 benchmark 对比,因此本次大部...
阅读原文

单张4090,1秒100张二次元小姐姐!UC伯克利等新模型霸榜Github,吞吐量提升近60倍

新智元报道编辑:桃子 【新智元导读】二次元小姐姐全新生成模型来了,还是1秒100张那种。10毫秒生成一张图像,1分钟6000张图像,这是什么概念? 下图中,就可...
阅读原文

无限新衣服零元购,阿里Outfit Anyone实现真人百变换装

机器之心专栏 机器之心编辑部【关注机器之心视频号,第一时间看到有趣的AI内容】 不实际试穿,就能尝试各种服饰,虚拟试衣技术让「QQ秀」升级成了真人版,为...
阅读原文

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

机器之心专栏 机器之心编辑部在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑...
阅读原文
1323334353648