代码全开源,支持用户在自定义数据集上微调
原标题:微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora
文章来源:量子位
内容字数:6069字
微软开源高性能视频Tokenizer:VidTok
近日,微软亚研院、上海交通大学和北京大学的研究人员联合发布了名为VidTok的开源视频Tokenizer。该模型在连续和离散Tokenizer,以及不同压缩率等多种设定下,均显著优于现有SOTA模型,为视频生成和世界模型等领域的研究和开发提供了强大的工具。
1. VidTok:高效的视频数据处理利器
视频生成模型如Sora和Genie,需要将高维视频数据转换为紧凑的视觉Token进行训练。VidTok作为一种高性能的视频Tokenizer,能够高效地完成这一任务。它在PSNR、SSIM、FVD和LPIPS等指标上均表现出色,雷达图显示其性能全面领先于Nvidia Cosmos Tokenizer、Open-Sora和CogVideoX等现有模型。
2. VidTok的关键特性和优势
VidTok支持多种设定,包括连续型和离散型Tokenizer、因果型和非因果型模型以及不同的压缩率。其灵活性和高性能使其能够适应各种应用场景。具体来说,VidTok:
- 支持连续型Tokenizer的不同视频压缩率、隐空间通道数以及因果和非因果模型。
- 支持离散型Tokenizer的不同视频压缩率、码本大小以及因果和非因果模型。
- 采用高效的混合模型架构,结合3D、2D和1D卷积,在降低计算成本的同时保持高重建质量。
- 采用先进的有限标量量化(FSQ)技术,无需显式学习码本,提高了训练稳定性和重建性能。
- 采用分阶段训练策略,将训练时间缩短50%而重建质量保持不变。
- 开源且支持用户在自定义数据集上进行微调。
3. VidTok的技术亮点
VidTok的优异性能源于其在模型架构、量化技术和训练策略上的创新:
- 高效的混合模型架构:巧妙地结合3D、2D和1D卷积,解耦空间和时间采样,在降低计算成本的同时保持高重建质量。
- 先进的量化技术(FSQ):无需显式学习码本,提高训练稳定性和重建性能,尤其在离散Tokenizer方面表现突出。
- 增强的训练策略:分阶段训练方法,显著降低训练时间,同时保持重建质量。
4. VidTok的意义和未来
VidTok的开源为视频生成和世界模型领域提供了重要的工具,特别是在许多领先模型仍为闭源的情况下。其支持微调的功能也为后续的应用和研究提供了广阔的空间。研究人员可以轻松地将VidTok应用于特定领域的数据集,以优化模型性能,推动该领域的发展。
总之,VidTok凭借其高性能、灵活性和易用性,有望成为视频处理领域的重要工具,为视频生成、世界模型等人工智能应用带来新的突破。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...