中山大学和字节发布「视频虚拟试穿」扩散模型VITON-DiT，一键生成换装后视频！

AIGC动态1年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：中山大学和字节发布「视频虚拟试穿」扩散模型VITON-DiT，一键生成换装后视频！
关键字：字节跳动,视频,服装,图像,注意力
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 任同学
视频虚拟试穿技术日益受到关注，然而现有的工作局限于将服装图像转移到姿势和背景简单的视频上，对于随意拍摄的视频则效果不佳。最近，Sora 揭示了 Diffusion Transformer (DiT) 在生成具有真实场景的逼真视频方面的可扩展性，可以说是风头无两。正是在这样的背景下，中山大学和字节跳动团队探索并提出第一个基于 DiT 的视频虚拟试穿框架 VITON-DiT，一键就能生成换装后视频了！
论文题目：VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers
论文链接：http://arxiv.org/abs/2405.18326
论文单位：中山大学、字节跳动
引言▲图 1.视频虚拟试穿系统旨在通过视频为目标人物穿上所需的服装，同时保持其动作和身份。这项技术在电子商务和娱乐等实际应用中具有巨大的潜力。现有的大部分工作都集中在基于图像的试穿上，例如基于生成对抗网络(GANs)的图像试穿。
尽管图像生成质量令人印象深

原文链接：中山大学和字节发布「视频虚拟试穿」扩散模型VITON-DiT，一键生成换装后视频！

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文