视觉模型智能涌现：Scaling Law的无尽可能性

Vidu1.5 已拉开技术代差。

原标题：视觉模型智能涌现后， Scaling Law 不会到头
文章来源：AI科技评论
内容字数：9375字

在自然语言处理领域，Scaling Law已经显示出其局限性，单纯依赖模型规模和数据量的提升已不再有效。而在多模态模型领域，Vidu1.5的发布则标志着这一领域的Scaling Law才刚刚起步，展示了更强的上下文能力和多主体一致性。

Vidu1.5在多模态生成中展示了显著的技术进步，能够通过上传不同角度的图片，实现单主体形象的高度一致性。同时，Vidu在多主体控制方面的突破使得用户可以自然融合不同元素，提升了视频生成的质量。

Vidu采用无微调的大一统技术架构，突破了传统视频模型的微调方案。这一架构的设计相当于重新构建了发动机，解决了视频生成中主体一致性的问题。与此相比，其他模型仍停留在预训练调的阶段。Vidu的设计哲学与大语言模型的发展路径相似，强调通用性和统一性。

Vidu1.5在上下文能力上也取得了显著进展，能够理解并生成多主体之间的连贯内容。这种能力的提升使得模型在处理复杂场景时更加灵活，允许用户输入更长的上下文信息，从而生成更具合逻辑和一致性的视频内容。

尽管生数科技面临来自大厂的竞争压力，但其明确的目标和持续的技术创新使其在多模态模型领域保持领先。未来，生数计划继续拓展其技术边界，包括4D模型和音频的整合，力求在通用多模态大模型上取得更大突破。

总的来说，Vidu1.5的发布不仅展示了多模态生成的新高度，也为未来的技术创新奠定了基础，预示着视频模型的发展将迎来新的机遇。

文章来源：AI科技评论
作者微信：
作者简介：雷峰网旗下AI新媒体。聚焦AI前沿研究，关注AI工程落地。

文章版权归作者所有，未经允许请勿转载。

暂无评论...