微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题

AIGC动态10个月前发布 机器之心
18 0 0

微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题

AIGC动态欢迎阅读

原标题:微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题

关键字:视频,研究者,音频,片段,视觉

文章来源:机器之心

内容字数:7381字

内容摘要:机器之心报道编辑:Panda、陈萍差不多已经掌握语言能力的大模型正在进军视觉领域,但具有里程碑意义的 GPT-4V 也仍有诸多不足之处,参阅《》。近日,微软 Azure AI 将 GPT-4V 与一些专用工具集成到一起,打造出了更强大的 MM-Vid,其不仅具备其它 LMM 的基本能力,还能分析长达一小时的长视频以及解说视频给视障人士听。世界各地的人们每天都会创造大量视频,包括用户直播的内容、短视…

原文链接:点此阅读原文:微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...