标签:视觉

让现实消失的不是 Sora,而是明日的 Vision Pro

更沉浸 更个性 更孤独OpenAI Sora 模型的诞生,让不少人大呼「现实已经不存在了」,因为它能让文字描述快速变成乍一看可以假乱真的视频。 然而,真正可以让现...
阅读原文

让视觉语言模型搞空间推理,谷歌又整新活了

机器之心报道 机器之心编辑部视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。视觉语言模型...
阅读原文

OpenAI发布强大的视频生成工具,让整个行业哀鸿遍野

点击上方蓝字关注我们“OpenAI发布了最新产品Sora,能凭文本生成60秒生动视频。Sora融合语言与图像生成技术,实现了连贯的场景转换,包括细节如头发、服装,以...
阅读原文

OpenAI创始大神卡帕西再度离职!回归一年很边缘,内讧中不站队不表态

金磊 发自 凹非寺量子位 | 公众号 QbitAIOpenAI创始研究员Andrej Karpathy,离职了——又一次。 Andrej Karpathy本人在X上发布了这一消息: 我昨天离开了OpenAI...
阅读原文

计算机视觉算法,难以落地无人机航拍应用,why?

(谨以此文,献给那些涉及 AI 需求的产品经理,领导,以及某些不称职的算法工程师们) 今天来说点真话,不吐不快。 在ChatGPT 大模型到来之前,人工智能发展...
阅读原文

iPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩

新智元报道编辑:桃子 【新智元导读】最近,来自UCSB和苹果的华人团队提出了MGIE,通过多模态模型引导图像精准编辑,可以10秒完成P图。几天前,库克在苹果电...
阅读原文

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

机器之心报道 编辑:蛋酱、陈萍拍张照片,输入文字指令,手机就开始自动修图? 这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。把背景中的人移除在...
阅读原文

CV大神何恺明正在招收博士后和实习生!

夕小瑶科技说 原创作者 | 谢年年 想必大家都知道,CV大神何恺明将在24年加入MIT EECS(电子工程和计算机科学系),而就在近日,何恺明在个人主页上官宣招收研...
阅读原文

年龄两岁,教龄一年半:婴儿AI训练师登上Science

机器之心报道 编辑:娄佳琪、张倩只用 61 个小时的数据:人们终于证明了,利用当代 AI 工具,实现「真正的语言学习」是可行的。 在公开采访中,图灵奖得主 Ya...
阅读原文

赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

机器之心报道 机器之心编辑部去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)...
阅读原文

纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画

新智元报道编辑:LRS 【新智元导读】不用图像,只用文本就能训练出视觉概念表征?用写代码的方式读懂画面,形状、物体、场景都能懂!只会「看书」的大语言模...
阅读原文

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

机器之心报道 机器之心编辑部动态视觉分词统一图文表示,快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。 当前的大型语言模型如 GPT、LLaMA 等...
阅读原文

从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成

允中 发自 凹非寺量子位 | 公众号 QbitAI建立会做视频的世界模型,也能通过Transformer来实现了! 来自清华和极佳科技的研究人员联手,推出了全新的视频生成...
阅读原文

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

Vary-toy团队 投稿量子位 | 公众号 QbitAI一款名为Vary-toy的“年轻人的第一个多模态大模型”来了! 模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡...
阅读原文

中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

新智元报道编辑:编辑部 【新智元导读】多模态大模型将是AI下一个爆点。最近,通义千问VLM模型换新升级,超大杯性能堪比GPT-4V。最最重要的是,还能限时免费...
阅读原文
1101112131420