微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

AIGC动态3年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

文章来源：机器之心

内容字数：7381字

内容摘要：机器之心报道编辑：Panda、陈萍差不多已经掌握语言能力的大模型正在进军视觉领域，但具有里程碑意义的 GPT-4V 也仍有诸多不足之处，参阅《》。近日，微软 Azure AI 将 GPT-4V 与一些专用工具集成到一起，打造出了更强大的 MM-Vid，其不仅具备其它 LMM 的基本能力，还能分析长达一小时的长视频以及解说视频给视障人士听。世界各地的人们每天都会创造大量视频，包括用户直播的内容、短视…

原文链接：点此阅读原文：微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题