微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora

代码全开源,支持用户在自定义数据集上微调

微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora

原标题:微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora
文章来源:量子位
内容字数:6069字

微软开源高性能视频Tokenizer:VidTok

近日,微软亚研院、上海交通大学和北京大学的研究人员联合发布了名为VidTok的开源视频Tokenizer。该模型在连续和离散Tokenizer,以及不同压缩率等多种设定下,均显著优于现有SOTA模型,为视频生成和世界模型等领域的研究和开发提供了强大的工具。

1. VidTok:高效的视频数据处理利器

视频生成模型如Sora和Genie,需要将高维视频数据转换为紧凑的视觉Token进行训练。VidTok作为一种高性能的视频Tokenizer,能够高效地完成这一任务。它在PSNR、SSIM、FVD和LPIPS等指标上均表现出色,雷达图显示其性能全面领先于Nvidia Cosmos Tokenizer、Open-Sora和CogVideoX等现有模型。

2. VidTok的关键特性和优势

VidTok支持多种设定,包括连续型和离散型Tokenizer、因果型和非因果型模型以及不同的压缩率。其灵活性和高性能使其能够适应各种应用场景。具体来说,VidTok:

  1. 支持连续型Tokenizer的不同视频压缩率、隐空间通道数以及因果和非因果模型。
  2. 支持离散型Tokenizer的不同视频压缩率、码本大小以及因果和非因果模型。
  3. 采用高效的混合模型架构,结合3D、2D和1D卷积,在降低计算成本的同时保持高重建质量。
  4. 采用先进的有限标量量化(FSQ)技术,无需显式学习码本,提高了训练稳定性和重建性能。
  5. 采用分阶段训练策略,将训练时间缩短50%而重建质量保持不变。
  6. 开源且支持用户在自定义数据集上进行微调。

3. VidTok的技术亮点

VidTok的优异性能源于其在模型架构、量化技术和训练策略上的创新:

  1. 高效的混合模型架构:巧妙地结合3D、2D和1D卷积,解耦空间和时间采样,在降低计算成本的同时保持高重建质量。
  2. 先进的量化技术(FSQ):无需显式学习码本,提高训练稳定性和重建性能,尤其在离散Tokenizer方面表现突出。
  3. 增强的训练策略:分阶段训练方法,显著降低训练时间,同时保持重建质量。

4. VidTok的意义和未来

VidTok的开源为视频生成和世界模型领域提供了重要的工具,特别是在许多领先模型仍为闭源的情况下。其支持微调的功能也为后续的应用和研究提供了广阔的空间。研究人员可以轻松地将VidTok应用于特定领域的数据集,以优化模型性能,推动该领域的发展。

总之,VidTok凭借其高性能、灵活性和易用性,有望成为视频处理领域的重要工具,为视频生成、世界模型等人工智能应用带来新的突破。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...