CogVideoX v1.5

AI工具1年前 (2024)发布 AI工具集

CogVideoX v1.5是智谱推出的最新开源AI视频生成模型，分为CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V两个版本。该模型能够生成5至10秒、768P分辨率、16帧的视频，同时I2V模型支持将任意尺寸比例的图像转换为视频。结合即将开放内测的CogSound音效模型，CogVideoX v1.5可以自动生成与视频画面相匹配的音效，确保用户获得更佳的视听体验。该模型在视频质量、美学表现、合理性和复杂语义理解方面表现出色，智谱AI已经将其代码开源，用户可通过GitHub访问。

CogVideoX v1.5是什么

CogVideoX v1.5是智谱最新发布的开源AI视频生成模型，旨在提升视频生成的灵活性和质量。该模型包含两个版本：CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V。5B系列模型可生成5至10秒、768P分辨率、16帧的视频，而I2V模型则具备将任意尺寸比例图像转换为视频的能力。结合即将开放内测的CogSound音效模型，CogVideoX v1.5不仅在视觉效果上有显著提升，还能同步生成匹配的音效，增强整体的感官体验。用户可以通过GitHub访问开源代码。

CogVideoX v1.5

CogVideoX v1.5的主要功能

高质量视频生成：支持生成10秒、4K分辨率、60帧的超高清晰度视频，确保视觉效果的卓越体验。
灵活的尺寸比例：I2V（图像转视频）模型能适应任意尺寸比例的视频生成，满足不同播放需求。
文本描述到视频生成：CogVideoX v1.5-5B专注于根据用户提供的文本提示生成相应的视频内容。
多视频输出：同一指令或图片可以一次生成多个视频，极大地提高了创作的灵活性。
带声效的AI视频：结合CogSound音效模型，生成与画面内容相匹配的音效，提升视频的整体感受。
视频质量提升：在视频生成的质量、美学表现、合理性及复杂提示词理解方面，模型的能力得到显著增强。

CogVideoX v1.5的技术原理

数据筛选与增强：
- 自动化筛选框架：通过开发自动化框架，过滤掉缺乏动态连贯性的视频数据，从而提升训练数据质量。
- 端到端视频理解模型：利用CogVLM2-caption模型生成精确的视频内容描述，增强文本理解与指令执行能力。
三维变分自编码器（3D VAE）：
- 视频数据压缩：使用3D VAE将视频数据压缩至原数据的2%，降低训练成本与难度。
- 时间因果卷积：采用时间因果卷积的上下文并行处理机制，增强模型在时间维度上的序列性。
Transformer架构：
- 三维度融合：创新的架构结合文本、时间与空间三维度，去除传统跨注意力模块，增强文本与视频之间的交互。
- 3D全注意力机制：基于3D全注意力机制，减少视觉信息隐式传递，降低建模复杂度。
3D旋转位置编码（3D RoPE）：提升模型在时间维度上捕捉帧间关系的能力，建立视频中的长期依赖关系。
扩散模型训练框架：
- 快速训练：构建高效的扩散模型训练框架，采用并行计算与时间优化技术，加快对长视频序列的训练。
- 任意分辨率视频生成：借助NaViT方法，模型能够处理不同分辨率和时长的视频，无需裁剪，从而避免由裁剪带来的误差。