标签:多模态知识融合

字节提出VideoWorld,从自回归视频生成模型获取世界知识!

VideoWorld:基于未标注视频数据训练的自回归视频生成模型
阅读原文