被误解的「中文版Sora」背后，字节跳动有哪些技术？

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：被误解的「中文版Sora」背后，字节跳动有哪些技术？
关键字：字节跳动,模型,视频,图像,研究者
文章来源：机器之心
内容字数：12381字

内容摘要：

机器之心报道
作者：蛋酱2024 开年，OpenAI 就在生成式 AI 领域扔下了重磅：Sora。
这几年，视频生成领域的技术迭代持续加速，很多科技公司也公布了相关技术进展和落地成果。在此之前，Pika、Runway 都曾推出过类似产品，但 Sora 放出的 Demo，显然以一己之力抬高了视频生成领域的标准。
在今后的这场竞争中，哪家公司将率先打造出超越 Sora 的产品，仍是未知数。
国内这边，目光聚集于一众科技大厂。
此前有消息称，字节跳动在 Sora 发布之前就研发出了一款名为 Boximator 的视频生成模型。
Boximator 提供了一种能够精确控制视频中物体的生成方法。用户无需编写复杂的文本提示，可以直接在参考图像中通过在物体周围画方框来选择目标，然后添加一些方框和线条来定义目标的结束位置或跨帧的整个路径，如下图所示：对此，字节跳动保持了低调的态度：相关人士回复媒体，Boximator 是视频生成领域控制对象的技术方法研究项目。目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。
在对应的技术论文介绍（ht

原文链接：被误解的「中文版Sora」背后，字节跳动有哪些技术？