MSRA:视觉生成六大技术问题

AIGC动态2个月前发布 量子位
5 0 0

MSRA:视觉生成六大技术问题

AIGC动态欢迎阅读

原标题:MSRA:视觉生成六大技术问题
关键字:模型,图像,噪声,任务,损失
文章来源:量子位
内容字数:0字

内容摘要:


古纾旸 投稿量子位 | 公众号 QbitAI文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。
微软亚洲研究院研究员古纾旸对此进行了梳理,他认为视觉信号拆分是最本质的问题。
生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。
因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信号拆分方式的不同产生了不同的生成模型。
此外,针对一些热点问题他也展开进行了分析,一共六大问题,例如diffusion模型是否是最大似然模型?diffusion模型的scaling law是什么样的?
以下是部分问题的具体讨论。
视觉信号拆分问题为什么大语言模型能这么成功?
作者认为,最本质的原因是文本信号拆分具有“等变性”。
具体来说,对于一个文本序列A=x0,x1,x2…语言模型会根据位置把P(x0,x1,x2…)的联合数据分布拆分成多个条件概率分布拟合问题:
P(x0),P(x1|x0),P(x2|x0,x1)…对于一个文本,比如说“我喜欢打篮球”,用自回归的方式进行拟合,那么对于从“打”回归“篮球”这个子任务,和它是文本中的第几个词没有关系。


原文链接:MSRA:视觉生成六大技术问题

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...