谷歌真·AI配音神器来了！自动看懂画面、对齐音频，能为任何视频生成无数音频

AIGC动态2年前 (2024)发布智东西

AIGC动态欢迎阅读

原标题：谷歌真·AI配音神器来了！自动看懂画面、对齐音频，能为任何视频生成无数音频
关键字：音频,视频,提示,画面,模型
文章来源：智东西
内容字数：0字

内容摘要：

谷歌DeepMind发布最新AI视频自动配音工具，AI视频正式开启有声时代！
编译|陈骏达
编辑|程茜
智东西6月18日消息，今日凌晨，谷歌DeepMind发布了一个名为V2A（Video-to-Audio）的系统，能根据画面内容或者手动输入的提示词直接为视频配音。它还可以为任何视频输入生成无限数量的音轨。
谷歌DeepMindV2A系统最大的特点就是无需人工输入提示词也可以为视频配音。DeepMind在博客中称V2A能依靠自己的视觉能力理解视频中的像素。也就是说，V2A能看懂画面，知道画面里正在发生什么，应该出现什么声音。
▲谷歌DeepMind发布的V2A Demo视频
当然，V2A也能够根据提示词生成所需的音频。使用者可以通过输入“正面提示词”来引导模型输出所需的声音，或输入“负面提示词”来引导其避免出现不需要的声音，这给了使用者更大的控制权。
与其它AI音频生成工具不同，V2A在生成音频后无需人工对齐音频视频，而是可以直接自动将音频与画面对齐。
但谷歌DeepMind也承认，这一系统目前仍然存在很大的局限性。如果输入的视频质量不高，那么输出的音频质量也会出现明显的下降。他们认为

原文链接：谷歌真·AI配音神器来了！自动看懂画面、对齐音频，能为任何视频生成无数音频