任意文本、视觉、音频混合生成，多模态有了强大的基础引擎CoDi-2

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：任意文本、视觉、音频混合生成，多模态有了强大的基础引擎CoDi-2

文章来源：机器之心

内容字数：5573字

内容摘要：机器之心报道编辑：杜伟、大盘鸡研究者表示，CoDi-2 标志着在开发全面的多模态基础模型领域取得了重大突破。今年 5 月，北卡罗来纳大学教堂山分校、微软提出一种可组合扩散（Composable Diffusion，简称）模型，让一种模型统一多种模态成为可能。CoDi 不仅支持从单模态到单模态的生成，还能接收多个条件输入以及多模态联合生成。近日，UC 伯克利、微软 Azure AI、Zoom、北卡罗来纳大学教堂山分校等多个机构的研究者将 CoDi 升级到了 CoDi-2。论文地址：https://arxiv.org/pdf/2311.18775.pdf项目地址：https://codi-2.github.io/项目 demo论文一作 Zineng Tang 表示，「CoDi-2 遵循复杂的多模态交错上下文指令，以零样本或少样本交互的方式生成任何模态（文本、视觉和音频）。」图源：https:…

原文链接：点此阅读原文：任意文本、视觉、音频混合生成，多模态有了强大的基础引擎CoDi-2