StoryTeller：全自动长视频描述生成系统提升内容创作效率与质量

AI工具2年前 (2024)发布 AI工具集

StoryTeller是什么

StoryTeller是由字节跳动、上海交通大学与北京大合研发的一种创新系统，旨在通过音频视觉角色识别技术提升长视频的描述质量与一致性。该系统巧妙地结合了基础视觉概念与复杂剧情信息，能够生成详尽且连贯的视频叙述。StoryTeller主要由三个模块构成：视频分割、音频视觉角色识别和描述生成，能够有效处理时长数分钟的视频。在MovieQA任务中，StoryTeller的准确率超过了现有模型，较最强基线Gemini-1.5-pro提升了9.5%。

StoryTeller的主要功能

视频分割：将较长的视频切分为多个短片段，确保每个片段且完整。
音频视觉角色识别：通过整合音频和视觉信息，识别视频中对话所对应的角色。
描述生成：为每个视频片段创建详尽的描述，并整合成连贯的整体叙述。
数据集构建：构建并运用MovieStory101数据集，为长视频描述提供训练和测试的数据基础。
自动评估：基于MovieQA，通过GPT-4自动评价视频描述的准确性与质量。
模型训练与微调：对多模态大型语言模型进行训练，提升角色识别和视频描述的准确性。
全局解码：确保在不同视频片段中，同一角色保持一致的识别结果。

StoryTeller的技术原理

多模态融合：融合视觉（视频帧）、音频（对话）和文本（字幕及描述）信息，全面理解视频内容。
音频分离与角色ID分配：通过音频嵌入模型对每个对话进行嵌入，利用聚类算法分配全局ID，将相似的音频嵌入标记为同一角色。
音频视觉角色识别模型：结合大型语言模型（如Tarsier-7B）与OpenAI的Whisper-large-v2音频编码器，将每个音频ID映射到特定角色。
全局解码算法：在推理过程中，确保不同片段中同一角色的全局ID映射到一致的角色名称，从而提高角色识别的准确性。
视频描述生成：利用识别结果作为输入，基于大型语言模型为每个片段生成详细描述，并整合成完整的视频叙述。