标签:视觉

中国如何复刻Sora,华人团队长文解构!996 OpenAI研究员:Sora是视频GPT-2时刻

新智元报道编辑:编辑部 【新智元导读】自曝996作息的OpenAI研究员Jason Wei表示,Sora代表着视频生成的GPT-2时刻。竞争的关键,就是算力和数据了。国内有可...
阅读原文

首个Sora逆向工程论文发布!

Sora深度论文综述中文版。 作者|城主 写在前面:来自理海大学和微软研究院的研究团队本周二发布了Sora的深度论文综述。这里和关心Sora的同学们分享本城翻译制...
阅读原文

首批现场体验 AI Pin 的人:为什么我不换台手机呢?

争议不断 创意不断AI Pin 在 MWC 2024(世界移动通信大会) 上的出场方式,和它本身一样,充满了争议。 Humane(AI Pin 母公司) 没有专属的展位,因此只能在...
阅读原文

让现实消失的不是 Sora,而是明日的 Vision Pro

更沉浸 更个性 更孤独OpenAI Sora 模型的诞生,让不少人大呼「现实已经不存在了」,因为它能让文字描述快速变成乍一看可以假乱真的视频。 然而,真正可以让现...
阅读原文

让视觉语言模型搞空间推理,谷歌又整新活了

机器之心报道 机器之心编辑部视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。视觉语言模型...
阅读原文

OpenAI发布强大的视频生成工具,让整个行业哀鸿遍野

点击上方蓝字关注我们“OpenAI发布了最新产品Sora,能凭文本生成60秒生动视频。Sora融合语言与图像生成技术,实现了连贯的场景转换,包括细节如头发、服装,以...
阅读原文

OpenAI创始大神卡帕西再度离职!回归一年很边缘,内讧中不站队不表态

金磊 发自 凹非寺量子位 | 公众号 QbitAIOpenAI创始研究员Andrej Karpathy,离职了——又一次。 Andrej Karpathy本人在X上发布了这一消息: 我昨天离开了OpenAI...
阅读原文

计算机视觉算法,难以落地无人机航拍应用,why?

(谨以此文,献给那些涉及 AI 需求的产品经理,领导,以及某些不称职的算法工程师们) 今天来说点真话,不吐不快。 在ChatGPT 大模型到来之前,人工智能发展...
阅读原文

iPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩

新智元报道编辑:桃子 【新智元导读】最近,来自UCSB和苹果的华人团队提出了MGIE,通过多模态模型引导图像精准编辑,可以10秒完成P图。几天前,库克在苹果电...
阅读原文

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

机器之心报道 编辑:蛋酱、陈萍拍张照片,输入文字指令,手机就开始自动修图? 这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。把背景中的人移除在...
阅读原文

CV大神何恺明正在招收博士后和实习生!

夕小瑶科技说 原创作者 | 谢年年 想必大家都知道,CV大神何恺明将在24年加入MIT EECS(电子工程和计算机科学系),而就在近日,何恺明在个人主页上官宣招收研...
阅读原文

年龄两岁,教龄一年半:婴儿AI训练师登上Science

机器之心报道 编辑:娄佳琪、张倩只用 61 个小时的数据:人们终于证明了,利用当代 AI 工具,实现「真正的语言学习」是可行的。 在公开采访中,图灵奖得主 Ya...
阅读原文

赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

机器之心报道 机器之心编辑部去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)...
阅读原文

纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画

新智元报道编辑:LRS 【新智元导读】不用图像,只用文本就能训练出视觉概念表征?用写代码的方式读懂画面,形状、物体、场景都能懂!只会「看书」的大语言模...
阅读原文

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

机器之心报道 机器之心编辑部动态视觉分词统一图文表示,快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。 当前的大型语言模型如 GPT、LLaMA 等...
阅读原文
1789101117