首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频
关键字：视频,认知,模型,答案,内容
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文作者来自于新加坡国立大学、南洋理工大学以及哈工深。其中，费豪的研究方向为多模态学习、多模态大语言模型。吴胜琼，新加坡国立大学博士生，主要研究方向为多模态大语言模型。吉炜的主要研究方向为多模态学习，多模态内容生成。张含望教授的研究兴趣包含计算机视觉、因果推断。张梅山教授的研究方向包括代码智能，自然语言处理，多模态生成与理解。Mong-Li Lee和Wynne Hsu教授的研究方向为社交媒体分析，协同机器学习等等。
最近，新加坡国立大合南洋理工大学和哈工深的研究人员共同提出了一个全新的视频推理框架，这也是首次大模型推理社区提出的面向视频的思维链框架（Video-of-Thought， VoT）。视频思维链VoT让视频多模态大语言模型在复杂视频的理解和推理性

原文链接：首个视频思维链推理框架Video-of-Thought来了：像人一样从感知到认知全面推理视频