后发先至，字节版 Sora 发布！10秒长度、多主体交互、一致性多镜头

AIGC动态1年前 (2024)发布 Founder Park

AIGC动态欢迎阅读

原标题：后发先至，字节版 Sora 发布！10秒长度、多主体交互、一致性多镜头
关键字：豆包,模型,快手,字节跳动,视频
文章来源：Founder Park
内容字数：0字

内容摘要：

9月 24 日，字节跳动的豆包大模型发布多款新品——视频生成、音乐生成以及同声传译大模型。
字节的视频生成模型首次亮相，这也意味着，在快手之后，国内的两大短视频巨头都进入了AI视频生成赛道。
发布会上还公布了豆包大模型的最新数据，截至9月，豆包大模型的日均 tokens 使用量已经超过1.3万亿，4个月的时间里 tokens 整体增长超过了10倍。在多模态方面，豆包·文生图模型日均生成图片5,000万张，此外，豆包目前日均处理语音85万小时。
目前，豆包大模型已涵盖大语言模型、视觉大模型、语音大模型三大品类发布了13个大模型。此外，豆包通用模型Pro升级，初始TPM支持800k、上下文窗口达到256k。
文章转载自「豆包」官方文章，部分内容转载自「智东西」。
点击关注，每天更新深度 AI 行业洞察
01视频生成：多主体交互，一致性多镜头生成豆包视频生成模型有PixelDance和Seaweed两个版本，目前尚不清楚两个版本的具体区别，目前均未开放试用。
PixelDance V1.4是ByteDance Research团队开发的 DiT 结构的视频生成大模型，同时支持文生视频和图生视

原文链接：后发先至，字节版 Sora 发布！10秒长度、多主体交互、一致性多镜头