CogSound

CogSound是什么

CogSound是智谱AI最新推出的一款音效生成模型，专为无声视频增添动听音效而设计。借助GLM-4V的视频理解能力，CogSound能够精准识别视频的语义和情感，从而为无声视频生成与之相匹配的音频内容。它可以创造出丰富多样的音效，如爆炸声、水流声、乐器音、动物叫声及交通工具声等。该模型的发布标志着智谱AI在视频生成领域的技术进步，尤其是在提升视频的多模态体验、增强视频的沉浸感与真实感方面。

CogSound

CogSound的主要功能

匹配画面的音效生成：CogSound能够为视频生成与画面内容相符的音效，提供更为丰富的视听享受。
支持超高清视频生成：可生成10秒、分辨率达到4K、帧率为60帧的超高清视频，并匹配相应的音效。
适应多种播放需求：支持不同比例的视频生成，以满足多样的播放需求，并为这些视频配备相应的音效。
多视频通道生成：同一指令或图像可一次性生成四个视频，每个视频都配有独特音效。
提升视频生成体验：CogSound通过音效的添加，极大增强了视频内容的沉浸感与真实感，使视频生成体验更加完整与生动。
音效功能公测即将上线：CogSound的音效功能预计将于11月底进行公测，用户将在智谱清影中体验CogSound提供的音效生成服务。

CogSound的技术特点

基于Unet的潜空间扩散：
- 高效的音频生成：CogSound利用潜空间扩散模型（Latent Diffusion Model）将音频生成过程从高维原始空间转移至低维潜空间，从而降低计算复杂度。
- 优化后的U-Net结构：作为扩散模型的核心架构，经过优化的U-Net结构在保持生成音频的高质量与高效率的同时，提升了音频合成过程的性能。
分块时序对齐交叉注意力：
- 强化音视频特征关联：CogSound通过引入分块时序对齐交叉注意力（Block-wise Temporal Alignment Cross-attention）机制，优化视频长序列与音频特征之间的关联性。
- 精确的音视频映射：通过学习帧级视频特征与音频特征之间的关系，实现精准的音视频映射，确保每一帧画面都能找到对应的音符，而每一个音符也能在视频中精准呼应。
旋转位置编码：
- 提升时序建模准确性：CogSound整合了旋转位置编码技术，为序列中的每个位置提供唯一标识并捕捉位置间的相对关系，从而提升时序的一致性。
- 确保连贯性与自然过渡：旋转位置编码保证音频序列的连贯性和过渡的自然性，在处理长时序任务时，能够避免音频生成中的“断层”或“错位”。