视频生成新纪元：通信巨头如何在多场景下实现人物形象的完美一致性

AIGC动态2年前 (2024)发布量子位

还能生成同步声音

原标题：通信巨头入局视频生成，直接霸榜权威评测：人物跨越多场景依然一致
文章来源：量子位
内容字数：3498字

TeleAI视频生成模型的崭露头角

近日，中国电信人工智能研究院（TeleAI）发布的新视频生成模型——TeleAI-VAST，凭借其卓越的表现，迅速在VBench评测中脱颖而出，成为众多视频生成模型中的佼佼者。该模型在16项子指标中获得了9项第一名，并在物体分类和人体动作两项上取得满分100的佳绩，显示出其在视频生成领域的强大实力。

技术创新与表现

TeleAI的视频生成模型采用了独特的“二阶段视频生成技术”架构。第一阶段，通过多模态大型模型生成中间素材，称为“故事板”，体现了场景的语义和结构。第二阶段则是基于这些中间表示，结合文本描述生成最终视频。这种分段式的生成方式，不仅提高了视频生成的质量，还能够精确控制主体的动作和外观。

多模态一致性与音画同步

该模型在人物形象和动作的一致性上表现出色，能够在不同场景下保持人物外观的统一。同时，TeleAI视频生成模型的音效与画面内容高度同步，包括舰船鸣笛、飞机起飞等声音效果，进一步提升了视频的真实感和沉浸感。

无限潜力的应用场景

TeleAI的视频生成模型不仅具备强大的技术实力，还具备广阔的应用前景。它允许创作者根据具体的分镜头生成视频，保持人物一致性，从而实现生成无限长度的视频。这一功能将为影视创作、广告制作等领域带来新的可能性。

未来展望与产品布局

TeleAI在发布这一视频生成模型的同时，也展示了其整体大模型布局，包括涵盖语义、语音、视觉等多模态的“星辰”大模型能力体系。未来，TeleAI将于明年开启公测，期待其在AI影视领域的进一步应用和发展。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # 人工智能 # 权威评测 # 视频生成 # 跨越场景 # 通信巨头

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

视频生成新纪元：通信巨头如何在多场景下实现人物形象的完美一致性

还能生成同步声音

TeleAI视频生成模型的崭露头角

技术创新与表现

多模态一致性与音画同步

无限潜力的应用场景

未来展望与产品布局

联系作者

马斯克求老黄插队购72亿GB显卡，疯狂加价抢占先机！

科技风暴来袭：MEET2025大会揭晓20位行业巨头、三大创新亮点与双重精彩对话！

相关文章

暂无评论