Kling-Foley

Kling-Foley – 可灵AI推出的多模态视频生音效模型

Kling-Foley 是可灵 AI 推出的创新多模态视频生音效模型，它能够根据视频内容和文本提示，生成与视频画面精准同步、高质量的立体声音频，涵盖音效、背景音乐等多种类型。该模型支持任意时长音频生成，并采用先进的多模态控制流匹配架构，结合多模态特征融合和特定模块处理，实现音视频完美对齐。 Kling-Foley 依托大规模自建多模态数据集训练，在音效生成领域表现卓越，为视频内容创作提供了高效、优质的音频解决方案。

Kling-Foley：开启音视频创作新纪元

在数字内容创作日益繁荣的今天，为视频配上恰如其分的音效至关重要。可灵 AI 倾力打造的 Kling-Foley，正是为满足这一需求而生的多模态视频生音效模型。它不仅能将视频转化为听觉盛宴，更能显著提升创作效率和作品品质。

核心功能：释放您的创作潜能

卓越音效生成： Kling-Foley 能够根据您提供的视频内容和可选的文本提示，智能生成与画面语义高度相关、时间精准同步的立体声音频。无论是令人惊叹的音效，还是恰到好处的背景音乐，它都能轻松驾驭，满足您在不同场景下的音频需求。
灵活时长支持：无需担心视频长度的限制，Kling-Foley 支持生成任意时长的音频内容，完美适配您的视频长度，确保音频与视频内容的无缝衔接。
沉浸式立体声体验：借助先进的立体声渲染技术，Kling-Foley 能够呈现具有空间感的音频效果，让听众仿佛置身于视频场景之中，带来更强的沉浸感。

技术解析：音视频完美融合的秘诀

多模态控制的流匹配架构： Kling-Foley 采用创新的多模态控制流匹配模型，将文本、视频和时间信息作为条件输入，通过多模态联合条件模块进行深度融合，并由MMDit模块进行处理。这种设计使得模型能够更准确地理解视频内容，生成与之匹配的音频。
模块化处理流程： Kling-Foley 的处理流程包含多个关键模块，多模态特征经过融合后，被送入MMDit模块预测VAE潜在特征。随后，预训练的梅尔解码器将潜在特征转化为单声道梅尔声谱图。最后，Mono2Stereo模块将单声道声谱图渲染为立体声声谱图，并由声码器生成最终的音频波形。
精准音视频对齐： Kling-Foley 引入视觉语义表示模块和音视频同步模块，在帧级别上对齐视频条件与音频潜层元素，确保生成的音频与视频内容在时间上和内容上完美匹配。
灵活的时长处理：通过离散时长嵌入机制，Kling-Foley 能够更好地处理不同长度的视频输入，生成与视频长度相适应的音频内容。
通用潜层音频编解码器： Kling-Foley 采用通用潜层音频编解码器（universal latent audio codec），使其能够处理音效、语音、歌声和音乐等多种音频类型，实现高质量建模。其核心是Mel-VAE，通过联合训练Mel编码器、Mel解码器和鉴别器，增强音频表征能力。