AIGC动态欢迎阅读
原标题:AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝
关键字:研究人员,视频,解读,模型,视觉
文章来源:新智元
内容字数:5803字
内容摘要:
新智元报道编辑:桃子 润
【新智元导读】秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。几天前,OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight,引全网围观。
AI视频,已然成为多模态LLM发展的大趋势。
然而,除了视频生成,让LLM对复杂视频进行理解,也至关重要。
最近,来自KAUST和哈佛大学的研究人员提出了MiniGPT4-Video——专为视频理解而设计的多模态大模型。
论文地址:https://arxiv.org/pdf/2404.03413.pdf
值得一提的是,MiniGPT4-Video能够同时处理时态视觉数据和文本数据,因此善于理解视频的复杂性。
比如,上传一个宝格丽的首饰宣传视频。
MiniGPT4-Video能够为其配出标题,宣传语。
再比如,使用虚幻引擎制作的视频,新模型可以对其进行理解。
能看出这个视频使用了后期处理和特效,而不是实际拍摄出来的。
甚至,看过一簇簇花盛开的视频,MiniGPT4-video即兴作出了超美的抒情诗。
基于MiniGPT-v
原文链接:AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...