微软开源视频Tokenizer新SOTA！显著优于Cosmos Tokenizer和Open-Sora

代码全开源，支持用户在自定义数据集上微调

原标题：微软开源视频Tokenizer新SOTA！显著优于Cosmos Tokenizer和Open-Sora
文章来源：量子位
内容字数：6069字

微软开源高性能视频Tokenizer：VidTok

近日，微软亚研院、上海交通大学和北京大学的研究人员联合发布了名为VidTok的开源视频Tokenizer。该模型在连续和离散Tokenizer，以及不同压缩率等多种设定下，均显著优于现有SOTA模型，为视频生成和世界模型等领域的研究和开发提供了强大的工具。

1. VidTok：高效的视频数据处理利器

视频生成模型如Sora和Genie，需要将高维视频数据转换为紧凑的视觉Token进行训练。VidTok作为一种高性能的视频Tokenizer，能够高效地完成这一任务。它在PSNR、SSIM、FVD和LPIPS等指标上均表现出色，雷达图显示其性能全面领先于Nvidia Cosmos Tokenizer、Open-Sora和CogVideoX等现有模型。

2. VidTok的关键特性和优势

VidTok支持多种设定，包括连续型和离散型Tokenizer、因果型和非因果型模型以及不同的压缩率。其灵活性和高性能使其能够适应各种应用场景。具体来说，VidTok：

支持连续型Tokenizer的不同视频压缩率、隐空间通道数以及因果和非因果模型。
支持离散型Tokenizer的不同视频压缩率、码本大小以及因果和非因果模型。
采用高效的混合模型架构，结合3D、2D和1D卷积，在降低计算成本的同时保持高重建质量。
采用先进的有限标量量化（FSQ）技术，无需显式学习码本，提高了训练稳定性和重建性能。
采用分阶段训练策略，将训练时间缩短50%而重建质量保持不变。
开源且支持用户在自定义数据集上进行微调。

3. VidTok的技术亮点

VidTok的优异性能源于其在模型架构、量化技术和训练策略上的创新：

高效的混合模型架构：巧妙地结合3D、2D和1D卷积，解耦空间和时间采样，在降低计算成本的同时保持高重建质量。
先进的量化技术（FSQ）：无需显式学习码本，提高训练稳定性和重建性能，尤其在离散Tokenizer方面表现突出。
增强的训练策略：分阶段训练方法，显著降低训练时间，同时保持重建质量。

4. VidTok的意义和未来

VidTok的开源为视频生成和世界模型领域提供了重要的工具，特别是在许多领先模型仍为闭源的情况下。其支持微调的功能也为后续的应用和研究提供了广阔的空间。研究人员可以轻松地将VidTok应用于特定领域的数据集，以优化模型性能，推动该领域的发展。

总之，VidTok凭借其高性能、灵活性和易用性，有望成为视频处理领域的重要工具，为视频生成、世界模型等人工智能应用带来新的突破。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # SOTA视频理解 # 低比特率视频压缩 # 开源视频处理 # 视频Tokenizer # 高效视频编码

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

微软开源视频Tokenizer新SOTA！显著优于Cosmos Tokenizer和Open-Sora

代码全开源，支持用户在自定义数据集上微调

微软开源高性能视频Tokenizer：VidTok

1. VidTok：高效的视频数据处理利器

2. VidTok的关键特性和优势

3. VidTok的技术亮点

4. VidTok的意义和未来

联系作者

HyperAI超神经 X 开源中国 | 本周六，源创会老友们，珠海见！

大模型版生命游戏来了!「AI科学家」背后公司联手MIT&OpenAI等打造

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点