AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 | ICML 2024

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 | ICML 2024
关键字：视频,语音,模型,解读,音频
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRST 好困
【新智元导读】音视频大语言模型在处理视频内容时，往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新：音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异，更在视听联合任务中展现了卓越的性能，证明了其全面性和准确性。想要看懂短视频，除了视觉内容外，语音和音频等听觉信息，如视频音乐、音效、语音内容等，也对短视频的理解起到关键作用。
音视频大语言模型（av-LLMs）在近几年取得了显著进展，但语音作为视频中人类语言的主要载体，仍未在这些模型中得到充分探索。语音不仅提供了丰富的语言和语义信息，还有助于理解视频中的情感和潜在意义。
与此同时，语音信号还包含丰富的副语言信息，如音调和音高，以及多样的说话者属性（如年龄、性别、口音和身份），这些都是视频理解中不可或缺的要素。
然而，增强通用视听大语言模型的语音能力极具挑战性，这需要时间上精细的建模，并在粗略（如视频主题）和精细（如唇部动作）时间尺度上与其他模态进行复杂的交互。
近期，发表在ICML 2024的论文《vid

原文链接：AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 | ICML 2024