视频模型的首次涌现：视觉智能引领通用智能的未来！

创业公司最重要的是目标的创新与坚持。

原标题：张鹏对话生数科技：视频模型迎来「首次涌现」，视觉更可能通往通用智能
文章来源：Founder Park
内容字数：29091字

2024年，视频生成技术的突破成为多模态领域最大的进展，尤其是生数科技的Vidu 1.5版本在多主体一致性方面的创新，标志着视频生成能力的新高度。本文将总结这一技术的关键成果及未来可能的发展方向。

Vidu 1.5的最大突破在于其上下文能力，模型能够灵活理解多张图片作为输入，并在此基础上生成一致性视频。这种一致性不仅体现在单个角色上，还能够处理多个主体之间的互动关系，甚至包括声音特征的保持，展现出更强的多模态一致性能力。

从最初的单主体一致性到现在多主体的一致性，技术范式经历了根本性的转变。Vidu团队不再依赖于传统的预训练和微调策略，而是采用统一的视觉输入和输出形式，使模型能够通用地处理各种问题，这一转变为模型的泛化能力奠定了基础。

随着多主体一致性的实现，视频生成模型开始具备讲述完整故事的能力，这对影视、广告等创作行业带来了巨大的变革。同时，模型的视觉和听觉反馈能力，也使得未来的人机互动更加自然和直观。

生数科技的长期目标是构建一个通用的多模态模型，而视频作为一种关键模态，将在这一过程中发挥重要作用。通过实现视频、音频、图像等多模态的统一表示，未来的模型将能够以更无损的方式处理和生成信息，推动智能的进一步发展。

在技术不断进步的背景下，生数科技的Vidu 1.5不仅展示了视频生成技术的强大潜力，也为未来的多模态智能模型奠定了基础。随着多模态技术的不断成熟，我们有理由相信，视频生成和智能交互的未来将会更加丰富和多元。

文章来源：Founder Park
作者微信：
作者简介：来自极客公园，专注与科技创业者聊「真问题」。

文章版权归作者所有，未经允许请勿转载。

暂无评论...