ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天
关键字：视频,片段,文本,标题,噪声
文章来源：机器之心
内容字数：8058字

内容摘要：

机器之心专栏
作者：林义杰在 2024 世界经济论坛的一次会谈中，图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测，而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征，正是促进该过程的关键技术。
然而，当下视频与文本描述间广泛存在的噪声关联现象严重阻碍了视频表征学习。因此本文中，研究者基于最优传输理论，提出鲁棒的长视频学习方案以应对该挑战。该论文被机器学习顶会ICLR 2024接收为了 Oral。论文题目：Multi-granularity Correspondence Learning from Long-term Noisy Videos
论文地址：https://openreview.net/pdf?id=9Cu8MRmhq2
项目地址：https://lin-yijie.github.io/projects/Norton
代码地址：https://github.com/XLearning-SCU/2024-ICLR-Norton
背景与挑战
视频表征学习是多模态研究中最热门的问题之一。大规模

原文链接：ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天