标签:内容推荐

VideoLLaMB

VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视...
阅读原文

M2UGen

M2UGen是先进的多模态音乐理解和生成框架,由腾讯PCG ARC实验室与新加坡国立大学联合推出。结合了大型语言模型(LLM)的能力,能处理包括文本、图像、视频和...
阅读原文

FineVideo

FineVideo是由Hugging Face推出的一个大型多模态视频数据集,专注于视频理解领域中的复杂任务,如情绪分析、故事叙述和媒体编辑。FineVideo包含超过43,000个Y...
阅读原文

pipio

pipio是视频自动AI配音工具,能保留原始声音的同时进行视频翻译,精确匹配说话者的唇部运动,使新语言的配音看起来自然无痕。pipio口型匹配技术提升33%、零损...
阅读原文

MMBench-Video

MMBench-Video是新颖的长视频多题问答基准测试,是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的。MMBench-Video能全面评估大型视觉...
阅读原文

Docling

Docling是开源的文档解析和转换工具,能高效地将多种格式的文档(包括PDF、DOCX、PPTX、图片和HTML)解析,导出为Markdown或JSON格式。Docling支持高级PDF理...
阅读原文

HourVideo

HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集,包含500个第一人称视角视频,时长20至120分钟,覆盖77种日常活动,能评估多模态模型对...
阅读原文
12