MSRA：视觉生成六大技术问题

AIGC动态2年前 (2024)发布量子位

MSRA：视觉生成六大技术问题

AIGC动态欢迎阅读

原标题：MSRA：视觉生成六大技术问题
关键字：模型,图像,噪声,任务,损失
文章来源：量子位
内容字数：0字

内容摘要：

古纾旸投稿量子位 | 公众号 QbitAI文生图、文生视频，视觉生成赛道火热，但仍存在亟需解决的问题。
微软亚洲研究院研究员古纾旸对此进行了梳理，他认为视觉信号拆分是最本质的问题。
生成模型的目标是拟合目标数据分布，然而，目标数据分布过于复杂，难以直接拟合。
因此，往往需要将复杂的信号做拆分，拆分成多个简单的分布拟合问题，再分别求解。信号拆分方式的不同产生了不同的生成模型。
此外，针对一些热点问题他也展开进行了分析，一共六大问题，例如diffusion模型是否是最大似然模型？diffusion模型的scaling law是什么样的？
以下是部分问题的具体讨论。
视觉信号拆分问题为什么大语言模型能这么成功？
作者认为，最本质的原因是文本信号拆分具有“等变性”。
具体来说，对于一个文本序列A=x0,x1,x2…语言模型会根据位置把P(x0,x1,x2…)的联合数据分布拆分成多个条件概率分布拟合问题：
P(x0),P(x1|x0),P(x2|x0,x1)…对于一个文本，比如说“我喜欢打篮球”，用自回归的方式进行拟合，那么对于从“打”回归“篮球”这个子任务，和它是文本中的第几个词没有关系。

原文链接：MSRA：视觉生成六大技术问题