Google DeepMind 最新研究：为AI视频生成创建逼真的背景声音

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：Google DeepMind 最新研究：为AI视频生成创建逼真的背景声音
关键字：报告,快手,视频,音频,提示
文章来源：人工智能学家
内容字数：0字

内容摘要：

来源：学术头条
自 Sora 发布以来，国内外各大科技公司和研究机构都在竞相推出“文生视频”大模型，比如生数科技的 Vidu、快手的可灵和 Runway 昨天才发布的 Gen-3 Alpha 等。
然而，目前许多系统只能生成无声输出，在视频生成过程中，为视频生成栩栩如生、同步的音频，亦是一个不可忽视的关键环节，它不仅关系到视频内容的质感和真实感，还影响到信息的传递和用户的体验。
同样在昨天，Google DeepMind 分享了他们在“视频生音频”方面的新进展——V2A，使同步视听生成成为可能。
据介绍，V2A 将视频像素与自然语言文本提示相结合，为屏幕上的动作生成丰富的音效。这一技术可与视频生成模型搭配使用，从而创建具有逼真音效或对话的镜头，从而与视频中的角色和基调相匹配。
V2A还可以为各种传统素材（包括档案资料、无声电影等）生成配乐，从而为创作提供更多机会。
以下是 Google DeepMind 官网上的几个配音 demo：
提示：电影、惊悚片、恐怖片、音乐、紧张、氛围、混凝土上的脚步声提示：音乐会舞台上的鼓手，周围是闪烁的灯光和欢呼的人群提示：草原上夕阳西下，口琴声悠扬婉转增

原文链接：Google DeepMind 最新研究：为AI视频生成创建逼真的背景声音