OmniShow

OmniShow – 字节联合港中文、港大等开源的视频生成模型

OmniShow，一个由字节跳动携手香港中文大学、莫纳什大学及香港大学共同打造的创新之作，正以前所未有的姿态革新着多模态人-物交互视频的生成领域。作为业界首个支持RAP2V（参考图+音频+姿势→视频）的端到端框架，OmniShow以其强大的整合能力，将文本、图像、音频、姿势这四种截然不同的输入模态融于一身，并借助一个仅有12.3B参数的单一模型，便能挥洒自如地创造出长达10秒的高质量视频。

OmniShow的独特之处

OmniShow不仅仅是一个视频生成工具，它更是一个全能型的创意引擎。它开创性地实现了RAP2V（参考图+音频+姿势→视频）的端到端框架，这意味着用户可以同时输入参考图像、音频、姿势信号以及文本描述，从而对生成视频进行全方位的精细化控制。模型通过运用门控局部上下文注意力等尖端技术，确保了音视频之间毫秒级的精确同步，这一成就使其在HOIVG-Bench基准测试中，在多项关键指标上均达到了行业领先（SOTA）水平。

OmniShow的核心功能亮点

全方位输入，尽在掌握：作为首个真正意义上支持RAP2V（Reference+Audio+Pose-to-Video）的端到端框架，OmniShow能够同时接收参考图像、音频、姿势信号以及文本描述这四种模态的输入。这赋予了用户前所未有的控制力，能够精准地指导人-物交互视频的每一个细节。
多任务并行，一站式生成：通过巧妙地组合不同的输入条件，OmniShow在单一的架构内即可完成多种视频生成任务。无论是基于参考图的视频生成（R2V）、音频驱动的数字人视频（RA2V）、姿势驱动的动画（RP2V），还是集四者之大成的全模态精确控制（RAP2V），它都能游刃有余。
长视频生成，品质卓越：OmniShow原生支持生成长达10秒的连贯视频，并且在保持角色外观一致性的同时，能够实现口型、表情以及肢体动作与音频信号的精准同步。其输出视频的视觉质量堪称行业标杆。
创意无限，素材重组：用户可以在保留人物动作和姿势的前提下，轻松替换视频中的物体，或者从不同的来源提取姿势、物体和人物参考进行重组。这种灵活性极大地拓展了创意视频编辑与合成的可能性。

OmniShow的技术内核解析

统一通道的条件注入：模型创新性地在通道维度拼接参考图像和姿势信号，将多模态的条件信息高效地注入到预训练的视频生成模型中。这种方法避免了传统调制技术可能对基础模型预训练先验造成的干扰，从而在引入人-物外观和动作控制的同时，依然能保持原有的生成质量。
门控局部上下文注意力机制：通过结合掩码注意力与可学习的门控向量，OmniShow能够动态地聚焦于音频特征与面部/身体局部区域之间的关联。这一设计是实现口型、表情和肢体动作与音频信号精确时间同步的关键，有效解决了多模态融合过程中可能出现的特征冲突问题。
解耦与联合的训练策略：针对R2V和A2V任务中数据异构且规模不平衡的挑战，OmniShow采用了先分别训练专用子模型来学习各模态的映射关系，然后通过权重插值进行融合，最后在联合数据上进行微调的策略。这种方法能够有效地整合异构数据集，并显著提升全模态输入下的生成一致性。

如何驾驭OmniShow

获取开源代码：首先，您需要从官方渠道克隆OmniShow的代码库到本地。随后，请仔细按照README文件的指引，配置好包含所有必要依赖项的运行环境。
准备多模态输入：根据您想要实现的生成任务，提前准备好所需的输入素材。这可能包括人物或物体的参考图像、驱动视频的音频文件、姿势序列文件以及相应的文本描述。
执行视频生成：一旦环境准备就绪且输入素材齐全，您就可以调用模型API或运行推理脚本。将组合好的多模态条件输入模型，即可生成长达10秒的高质量人-物交互视频，并保存最终的输出结果。

OmniShow的关键信息与使用门槛

项目定位与合作背景：OmniShow是字节跳动与香港中文大学、莫纳什大学、香港大手推出的行业级多模态人-物交互视频生成模型，其核心目标是解决复杂的人与物体互动场景下的视频生成难题。
技术规模与效率：该模型拥有12.3B的参数量，在同类模型（如HuMo-17B、Phantom-14B）中展现出卓越的参数效率。这意味着在实现高性能的同时，它能显著降低对计算资源的需求。
核心能力——全模态统一：作为业界首个完整支持RAP2V（参考图+音频+姿势→视频）的端到端统一框架，OmniShow能够同时处理参考图像、音频信号、姿势序列和文本描述这四种模态输入，进行联合推理。
生成质量与时长：OmniShow原生支持生成最长10秒的连续视频，并借助门控局部上下文注意力技术，实现了口型、表情、肢体动作与音频的高度同步，达到行业级视觉标准。
性能表现的突出之处：在自建的HOIVG-Bench基准测试中，OmniShow在R2V、RA2V、RP2V以及RAP2V这四项任务上均取得了SOTA水平的成绩，是目前唯一能够支持全模态输入的领先解决方案。

OmniShow的卓越优势概览

全模态统一架构，简化流程：OmniShow是业界首个完整支持RAP2V（参考图+音频+姿势→视频）的端到端框架。它实现了文本、图像、音频、姿势四种条件的无缝统一处理，无需拼接多个专用模型，即可应对复杂的全模态输入组合，极大地简化了工作流程。
极致的参数效率，成本更优：其12.3B的参数量在HOIVG-Bench基准上达到了多项SOTA，显著优于HuMo-17B（17B）和Phantom-14B（14B）等更大参数量的模型。这意味着在保证行业级生成质量的同时，OmniShow大幅降低了推理成本。
单一模型，多任务覆盖广泛：通过灵活的输入组合策略，一个OmniShow模型即可胜任R2V（参考图生成）、RA2V（音频驱动数字人）、RP2V（姿势驱动动画）以及完整的RAP2V（全模态控制）四类任务。用户无需针对不同场景切换模型，大大提升了使用便捷性。
音视频精确同步，体验更佳：创新的门控局部上下文注意力机制，通过可学习的门控向量和掩码注意力，实现了口型、面部表情、肢体动作与音频信号的高度同步。在Sync-C指标上，OmniShow取得了8.612的领先水平，为用户带来更加沉浸式的观看体验。
长视频原生生成，连贯性卓越：与依赖滑动窗口的外推方法不同，OmniShow原生支持一次性生成长达10秒的连续视频。这使得它在保持角色外观、物体样式以及时间连贯性方面具有显著优势。

OmniShow的项目链接

项目官网：https://correr-zhou.github.io/OmniShow/
GitHub仓库：https://github.com/Correr-Zhou/OmniShow

OmniShow与同类竞品的深度对比

对比维度	OmniShow	HuMo-17B	Phantom-14B
参数规模	12.3B（最轻量）	17B（+38%）	14B（+14%）
支持任务	R2V / RA2V / RP2V / RAP2V（全模态）	R2V / RA2V（无姿势）	仅 R2V（无音频/姿势）
架构特点	端到端统一框架，单模型多任务	专用人-物交互模型，需配合其他工具	基础参考图生成模型
R2V 质量（NexusScore）	0.389（SOTA）	0.346（低 11%）	0.366（低 6%）
RA2V 同步（Sync-C）	8.612（SOTA）	8.028（低 7%）	不支持
RP2V 精度（PCK）	0.460（SOTA）	不支持	不支持
视频时长	原生 10 秒	通常 5-8 秒	通常 5 秒
应用场景	数字人、动画、物体替换、混剪全覆盖	有限的人-物交互	静态外观迁移

OmniShow的多元化应用场景

电商产品展示的革新：利用其参考图像替换功能，用户可以在保持模特动作姿势不变的前提下，快速更换展示的服装、配饰或商品，从而实现高效且富有吸引力的商品视频化呈现。
数字人短视频创作的利器：凭借RA2V（参考图+音频）能力，只需输入人物照片和语音，即可生成口型精准同步的说话或唱歌视频，完美契合虚拟主播、社交媒体内容创作等需求。
创意视频混剪的无限可能：通过其多模态重组能力，可以从不同来源提取姿势、物体和人物参考进行创意合成，实现跨视频的个性化内容编辑和二次创作，激发无限创意。
互动娱乐与游戏的未来：借助姿势驱动（RP2V）功能，可以将用户的动作捕捉实时转化为游戏角色或虚拟形象的动画，支持全身姿态控制的实时交互体验，为游戏和虚拟现实带来新的维度。
广告与营销内容的批量生成：结合全模态输入（RAP2V），可以精确控制品牌代言人的外观、台词音频以及肢体动作，从而批量生成风格统一、引人注目的宣传视频素材，提升营销效率。

阅读原文