Helios

Helios – 北大联合字节等开源的实时长视频生成模型

Helios：颠覆式视频生成新纪元，分钟级长视频生成成真

在人工智能飞速发展的浪潮中，视频生成技术正迎来前所未有的突破。北京大学与字节跳动等顶尖机构强强联合，重磅推出名为Helios的140亿参数实时长视频生成模型。这款模型不仅在生成速度上令人瞩目，更在技术原理上实现了多项创新，有望彻底改变内容创作的格局。

Helios最令人惊叹的成就之一，在于其能在单张H100 GPU上实现高达19.5帧每秒的实时生成能力，并能生成长达数分钟的连贯视频。更值得一提的是，Helios在追求速度的同时，并未依赖KV缓存、量化或因果掩码等传统加速手段。相反，它通过“统一历史注入”、“深度压缩流”以及“对抗分层蒸馏”等一系列独创性技术，将庞大的140亿参数模型的计算成本，巧妙地压缩至仅相当于一个13亿参数模型的水平，实现了前所未有的能效比。

Helios的核心功能涵盖了当前视频生成领域最主流的几种模式，并且在性能上远超现有方案：

文生视频：只需一段文字描述，Helios便能信手拈来，生成高质量的动态影像，让想象力跃然屏上。
图生视频：静态图片也能焕发新生。Helios能够将一张张静止的画面赋予生命，转化为引人入胜的动态视频。
视频续写：对于已有的视频内容，Helios不仅能进行无缝的续写，还能根据需求进行风格上的转换，为视频创作提供无限可能。
交互式生成：Helios支持实时交互，用户可以在视频生成过程中即时调整和修改提示词，实现人机协同的创作体验，大大提升了创作的灵活性和效率。
分钟级长视频：不同于以往只能生成短片段的限制，Helios能够稳定输出长达1440帧的分钟级长视频，为叙事和内容深度提供了坚实的基础。

Helios之所以能取得如此显著的成就，离不开其背后精妙绝伦的技术支撑：

统一历史注入：通过将历史帧与噪声帧巧妙融合作为输入，Helios成功地将原本的双向预训练模型转化为一个强大的自回归生成器。通过对历史帧的固定处理和对噪声帧的精细去噪，以及创新的“表示控制机制”，Helios能够自适应地处理文本到视频、图像到视频以及视频续写这三种截然不同的任务模式。
引导注意力机制：Helios在自注意力层中，对历史信息和噪声上下文进行了分离计算。通过“头级放大令牌”，它能够选择性地调整历史信息的重要性；而在交叉注意力层，则仅将文本语义注入噪声上下文，有效避免了历史帧语义的重复叠加，从而精确地解耦了不同上下文的统计特性。
简易抗漂移策略：为了应对长视频生成中常见的“漂移”问题，Helios采用了相对位置编码来固定时间索引范围，从而消除位置偏移。同时，保留首帧作为全局视觉锚点，有效抑制了颜色漂移。在训练阶段，通过对历史帧随机施加曝光调整、噪声添加或模糊等扰动，Helios模拟了推理过程中可能出现的误差累积，从根本上解决了重复的问题。
深度压缩流：Helios引入了“多期记忆分块”技术，根据历史帧的远近采用不同的压缩率，从而在保持令牌预算恒定的前提下，实现了高效的存储和计算。其“金字塔统一预测校正器”则能在多尺度潜空间分阶段采样，先通过低分辨率确定全局结构，再在高分辨率细化细节，成功将14B模型的令牌计算量大幅降低。
对抗分层蒸馏：以自回归教师模型为基准，Helios通过分阶段的反向仿真获取多尺度估计。结合动态重噪声调度实现的课程式学习，以及引入的对抗后训练，Helios突破了教师模型的性能瓶颈，将原本需要50步的采样过程压缩至仅需3步，并且无需依赖分类器引导，极大地提升了生成效率。

Helios的强大能力使其在多个领域展现出巨大的应用潜力：

影视与广告制作：Helios的实时生成能力将极大地加速电影预告片、广告创意和动态分镜的制作流程。创作者可以以前所未有的速度迭代视觉概念，将曾经耗时数小时的渲染工作缩短至分钟级别。
游戏与交互娱乐：作为构建“世界模型”的关键组件，Helios支持实时生成无限长度的游戏场景和动态环境。这将为开放世界游戏、虚拟现实体验以及交互式叙事提供源源不断、连贯一致的视觉内容流。
社交媒体与内容创作：普通用户也能通过Helios，瞬间将文字或图片转化为高质量的短视频，大大降低了专业视频制作的门槛。它将赋能每一位个人创作者，轻松产出媲美电影级水准的视觉内容。
设计与原型验证：设计师可以借助Helios的图生视频和视频续写功能，将静态设计稿转化为生动的动态演示。实时预览产品动画效果，将大大加速设计迭代和反馈的流程。

Helios的开源不仅意味着其先进的技术将惠及更广泛的研究者和开发者，也预示着一个更加激动人心的视频生成新时代的到来。

阅读原文