还能生成同步声音
TeleAI视频生成模型的崭露头角
近日,中国电信人工智能研究院(TeleAI)发布的新视频生成模型——TeleAI-VAST,凭借其卓越的表现,迅速在VBench评测中脱颖而出,成为众多视频生成模型中的佼佼者。该模型在16项子指标中获得了9项第一名,并在物体分类和人体动作两项上取得满分100的佳绩,显示出其在视频生成领域的强大实力。
技术创新与表现
TeleAI的视频生成模型采用了独特的“二阶段视频生成技术”架构。第一阶段,通过多模态大型模型生成中间素材,称为“故事板”,体现了场景的语义和结构。第二阶段则是基于这些中间表示,结合文本描述生成最终视频。这种分段式的生成方式,不仅提高了视频生成的质量,还能够精确控制主体的动作和外观。
多模态一致性与音画同步
该模型在人物形象和动作的一致性上表现出色,能够在不同场景下保持人物外观的统一。同时,TeleAI视频生成模型的音效与画面内容高度同步,包括舰船鸣笛、飞机起飞等声音效果,进一步提升了视频的真实感和沉浸感。
无限潜力的应用场景
TeleAI的视频生成模型不仅具备强大的技术实力,还具备广阔的应用前景。它允许创作者根据具体的分镜头生成视频,保持人物一致性,从而实现生成无限长度的视频。这一功能将为影视创作、广告制作等领域带来新的可能性。
未来展望与产品布局
TeleAI在发布这一视频生成模型的同时,也展示了其整体大模型布局,包括涵盖语义、语音、视觉等多模态的“星辰”大模型能力体系。未来,TeleAI将于明年开启公测,期待其在AI影视领域的进一步应用和发展。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...