视频生成新纪元:通信巨头如何在多场景下实现人物形象的完美一致性

还能生成同步声音

视频生成新纪元:通信巨头如何在多场景下实现人物形象的完美一致性

原标题:通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致
文章来源:量子位
内容字数:3498字

TeleAI视频生成模型的崭露头角

近日,中国电信人工智能研究院(TeleAI)发布的新视频生成模型——TeleAI-VAST,凭借其卓越的表现,迅速在VBench评测中脱颖而出,成为众多视频生成模型中的佼佼者。该模型在16项子指标中获得了9项第一名,并在物体分类和人体动作两项上取得满分100的佳绩,显示出其在视频生成领域的强大实力。

技术创新与表现

TeleAI的视频生成模型采用了独特的“二阶段视频生成技术”架构。第一阶段,通过多模态大型模型生成中间素材,称为“故事板”,体现了场景的语义和结构。第二阶段则是基于这些中间表示,结合文本描述生成最终视频。这种分段式的生成方式,不仅提高了视频生成的质量,还能够精确控制主体的动作和外观。

多模态一致性与音画同步

该模型在人物形象和动作的一致性上表现出色,能够在不同场景下保持人物外观的统一。同时,TeleAI视频生成模型的音效与画面内容高度同步,包括舰船鸣笛、飞机起飞等声音效果,进一步提升了视频的真实感和沉浸感。

无限潜力的应用场景

TeleAI的视频生成模型不仅具备强大的技术实力,还具备广阔的应用前景。它允许创作者根据具体的分镜头生成视频,保持人物一致性,从而实现生成无限长度的视频。这一功能将为影视创作、广告制作等领域带来新的可能性。

未来展望与产品布局

TeleAI在发布这一视频生成模型的同时,也展示了其整体大模型布局,包括涵盖语义、语音、视觉等多模态的“星辰”大模型能力体系。未来,TeleAI将于明年开启公测,期待其在AI影视领域的进一步应用和发展。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...