字节视频大模型比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译也实现了

AIGC动态2年前 (2024)发布智东西

字节视频大模型杀死比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译自由也实现了

AIGC动态欢迎阅读

原标题：字节视频大模型比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译也实现了
关键字：模型,字节跳动,豆包,视频,快手
文章来源：智东西
内容字数：0字

内容摘要：

豆包大模型凶猛上新：轻松创作电影质感大片、歌曲，同音色翻译赶超人类同传。
作者|程茜
编辑|云鹏
智东西9月24日报道，今天，字节的视频生成大模型首次亮相，分分钟化身超级导演，镜头切换、电影质感、多主体交互都能轻松拿捏；其通用模型Pro综合能力提升25%，初始TPM（每分钟处理Tokens数量）支持800k，高于业界其他模型。
这些都是今天字节跳动豆包大模型家族的重磅更新，连添了视频、音乐、同声传译三大新成员；还有文生图模型优化了六类复杂生成，语音合成模型可混合数百种音色……
其中的重磅发布莫过于视频生成模型，这意味着继快手后，另一大短视频巨头字节（抖音集团）也正式进军AI视频生成赛道。
豆包的视频生成模型可以实现对复杂指令的理解和遵循，平滑实现镜头的变焦、环绕、缩放，保持多镜头切换的一致性以及多尺寸、多风格生成。据火山引擎总裁谭待透露，该模型会在国庆节之后上线到火山方舟平台。
它可以根据提示词生成电影质感的画面：
超现实的提示词也能轻松应对，如有翅膀的青蛙、浮空小岛中生长的树等：
在真实使用场景中，人们往往需要不同比例或者尺寸大小的视频，该模型可以满足多比例、多尺寸的视频生成：
即使

原文链接：字节视频大模型比赛！无缝镜头切换，运镜技巧拉满，音乐创作和翻译也实现了