AIGC动态欢迎阅读
原标题:AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
关键字:视频,语音,模型,解读,音频
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:LRST 好困
【新智元导读】音视频大语言模型在处理视频内容时,往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新:音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异,更在视听联合任务中展现了卓越的性能,证明了其全面性和准确性。想要看懂短视频,除了视觉内容外,语音和音频等听觉信息,如视频音乐、音效、语音内容等,也对短视频的理解起到关键作用。
音视频大语言模型(av-LLMs)在近几年取得了显著进展,但语音作为视频中人类语言的主要载体,仍未在这些模型中得到充分探索。语音不仅提供了丰富的语言和语义信息,还有助于理解视频中的情感和潜在意义。
与此同时,语音信号还包含丰富的副语言信息,如音调和音高,以及多样的说话者属性(如年龄、性别、口音和身份),这些都是视频理解中不可或缺的要素。
然而,增强通用视听大语言模型的语音能力极具挑战性,这需要时间上精细的建模,并在粗略(如视频主题)和精细(如唇部动作)时间尺度上与其他模态进行复杂的交互。
近期,发表在ICML 2024的论文《vid
原文链接:AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
联系作者
文章来源:新智元
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...