实现了对大幅视频的高效压缩与精准重建。
港科大团队开源VideoVAE+:高效压缩与精准重建大幅视频
机器之心AIxiv专栏报道了香港科技大学团队重磅开源的VideoVAE+,这是一个强大的跨模态视频变分自编码器(Video VAE)。该模型通过创新的时空分离压缩机制和文本指导,实现了对大幅视频的高效压缩与精准重建,同时保持了良好的时间一致性和恢复效果,并在多个基准测试中超越了包括英伟达Cosmos Tokenizer和腾讯Hunyuan Video在内的多个先进模型。
1. VideoVAE模型概述
VideoVAE模型是一种基于深度学习的生成模型,用于视频数据的压缩、重建和生成。它将视频从RGB像素空间投影到低维潜在空间(latent space)。常与扩散模型结合使用,先用VideoVAE编码器压缩数据,去除冗余信息,再在低维潜在空间用扩散模型生成,最后用VideoVAE解码器解码回RGB视频,从而提高生成效率。
2. VideoVAE+的改进与创新
现有VideoVAE方法存在诸多问题,例如忽略帧间时间关联性导致时序闪烁,时间冗余信息未充分压缩导致训练成本高昂,以及细节模糊、卡顿等问题。为了解决这些问题,VideoVAE+提出了以下创新:
- 时空分离的压缩机制:通过时序感知的空间压缩方法,有效分离空间和时间信息处理,避免时空耦合导致的伪影。
- 轻量级压缩模型:专门设计用于高效捕获视频动态的模型。
- 文本信息融合:利用文本信息作为指导,提高视频细节保留能力和时间稳定性。
- 图像和视频联合训练:在图像和视频数据上联合训练,增强模型在多任务上的重建性能和适应性。
VideoVAE+采用了一种优化的时空建模策略,结合了“同时建模”和“顺序建模”的优势。首先,使用时序感知的空间自编码器压缩空间信息,然后使用时序自编码器压缩时间信息。这种方法既能保证细节恢复能力,又能有效恢复。
3. 关键技术细节
VideoVAE+还包含以下关键技术:
- 智能特征分块:将视频特征图分割成小块(patch)作为token处理,不同层采用不同尺寸,确保细节追踪。
- 跨模态注意力机制:首次在Video VAE任务中引入文本信息作为语义指导,提升细节重建质量。
- 强大的文本嵌入器:采用Flan-T5模型将文本转化为语义向量。
4. 实验结果与结论
VideoVAE+在多个数据集上进行了测试,结果表明其性能大幅超过了包括英伟达Cosmos Tokenizer和腾讯Hunyuan Video在内的多个最新模型。该模型能够准确重建大幅视频,并有效解决了卡顿、重建模糊和细节缺失等问题。
VideoVAE+的开源,为视频压缩、重建和生成领域带来了新的突破,为后续研究提供了宝贵的参考。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台