标签：视觉

让现实消失的不是 Sora，而是明日的 Vision Pro

更沉浸更个性更孤独OpenAI Sora 模型的诞生，让不少人大呼「现实已经不存在了」，因为它能让文字描述快速变成乍一看可以假乱真的视频。然而，真正可以让现...

阅读原文

AIGC动态

2年前 (2024)

让视觉语言模型搞空间推理，谷歌又整新活了

机器之心报道机器之心编辑部视觉语言模型虽然强大，但缺乏空间推理能力，最近 Google 的新论文说它的 SpatialVLM 可以做，看看他们是怎么做的。视觉语言模型...

阅读原文

AIGC动态

2年前 (2024)

OpenAI发布强大的视频生成工具，让整个行业哀鸿遍野

点击上方蓝字关注我们“OpenAI发布了最新产品Sora，能凭文本生成60秒生动视频。Sora融合语言与图像生成技术，实现了连贯的场景转换，包括细节如头发、服装，以...

阅读原文

AIGC动态

2年前 (2024)

OpenAI创始大神卡帕西再度离职！回归一年很边缘，内讧中不站队不表态

金磊发自凹非寺量子位 | 公众号 QbitAIOpenAI创始研究员Andrej Karpathy，离职了——又一次。 Andrej Karpathy本人在X上发布了这一消息：我昨天离开了OpenAI...

阅读原文

AIGC动态

2年前 (2024)

计算机视觉算法，难以落地无人机航拍应用，why？

（谨以此文，献给那些涉及 AI 需求的产品经理，领导，以及某些不称职的算法工程师们）今天来说点真话，不吐不快。在ChatGPT 大模型到来之前，人工智能发展...

阅读原文

AIGC动态

2年前 (2024)

iPhone动嘴10秒P图！UCSB苹果全华人团队发布多模态MGIE，官宣开源人人可玩

新智元报道编辑：桃子【新智元导读】最近，来自UCSB和苹果的华人团队提出了MGIE，通过多模态模型引导图像精准编辑，可以10秒完成P图。几天前，库克在苹果电...

阅读原文

AIGC动态

2年前 (2024)

罕见！苹果开源图片编辑神器MGIE，要上iPhone?

机器之心报道编辑：蛋酱、陈萍拍张照片，输入文字指令，手机就开始自动修图？这一神奇功能，来自苹果刚刚开源的图片编辑神器「MGIE」。把背景中的人移除在...

阅读原文

AIGC动态

2年前 (2024)

CV大神何恺明正在招收博士后和实习生！

夕小瑶科技说原创作者 | 谢年年想必大家都知道，CV大神何恺明将在24年加入MIT EECS（电子工程和计算机科学系），而就在近日，何恺明在个人主页上官宣招收研...

阅读原文

AIGC动态

2年前 (2024)

年龄两岁，教龄一年半：婴儿AI训练师登上Science

机器之心报道编辑：娄佳琪、张倩只用 61 个小时的数据：人们终于证明了，利用当代 AI 工具，实现「真正的语言学习」是可行的。在公开采访中，图灵奖得主 Ya...

阅读原文

AIGC动态

2年前 (2024)

赶超Gemini Pro，提升推理、OCR能力的LLaVA-1.6太强了

机器之心报道机器之心编辑部去年 4 月，威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA（Large Language and Vision Assistant）...

阅读原文

AIGC动态

2年前 (2024)

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

新智元报道编辑：LRS 【新智元导读】不用图像，只用文本就能训练出视觉概念表征？用写代码的方式读懂画面，形状、物体、场景都能懂！只会「看书」的大语言模...

阅读原文

AIGC动态

2年前 (2024)

ICLR 2024｜把图像视为外语，快手、北大多模态大模型媲美DALLE-3

机器之心报道机器之心编辑部动态视觉分词统一图文表示，快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。当前的大型语言模型如 GPT、LLaMA 等...

阅读原文

AIGC动态

2年前 (2024)

从20亿数据中学习物理世界，基于Transformer的通用世界模型成功挑战视频生成

允中发自凹非寺量子位 | 公众号 QbitAI建立会做视频的世界模型，也能通过Transformer来实现了！来自清华和极佳科技的研究人员联手，推出了全新的视频生成...

阅读原文

AIGC动态

2年前 (2024)

年轻人的第一个多模态大模型：1080Ti轻松运行，已开源在线可玩

Vary-toy团队投稿量子位 | 公众号 QbitAI一款名为Vary-toy的“年轻人的第一个多模态大模型”来了！模型大小不到2B，消费级显卡可训练，GTX1080ti 8G的老显卡...

阅读原文

AIGC动态

2年前 (2024)

中文性能反超VLM顶流GPT-4V，阿里Qwen-VL超大杯限免！看图秒写编程视觉难题一眼辨出

新智元报道编辑：编辑部【新智元导读】多模态大模型将是AI下一个爆点。最近，通义千问VLM模型换新升级，超大杯性能堪比GPT-4V。最最重要的是，还能限时免费...

阅读原文

AIGC动态

2年前 (2024)

1…10 111213 14…20