Wan2.5

Wan2.5 – 阿里通义推出的多模态生成模型系列

Wan2.5 (通义万相2.5)是阿里推出的最新多模态生成模型，为通义万相 2.5 preview 版，具备文生视频、图生视频、文生图及图像编辑四大核心能力，并率先实现音画同步的视频生成，支持1080P、24fps高清视频创作，可生成匹配画面的多种语言人声、音效及音乐，并能生成中英文文字、复杂图表及艺术海报，支持一键图像编辑，模型基于原生多模态架构，通过输入提示词或音频即可驱动创作，极大地降低了创作门槛，广泛应用于广告、电商、影视等领域。该模型已上线通义万相及阿里云百炼平台。

Wan2.5 的主要亮点

视频生成革新
- 音画合一
  能够生成与画面完美契合的逼真音效，包括多人语音、背景音乐（BGM）等，支持多语种，实现声音与画面的无缝衔接。
- 时长加倍
  视频生成时长从5秒提升至10秒，可呈现更完整的故事线。
- 视听盛宴
  支持生成24帧/秒的1080P高清视频，达到电影级制作标准。
- 精准控制
  能够理解并执行复杂的连续指令，如运镜变化，实现更具创意的视频效果。
图像生成多元化
- 文字内容绘制
  精准渲染中英文、小语种、艺术字、长文本及复杂构图，可生成各类海报、Logo等视觉作品。
- 数据可视化
  支持生成科学图表、流程图、数据图、架构图以及结构化的文字内容表格。
图像编辑智能化
- 全能编辑
  提供背景替换、颜色调整、元素添加、风格转变等丰富的编辑功能。
- 指令即所得
  用户仅需一句描述即可完成图像编辑，无需专业技能，指令理解准确高效。
- 视觉一致性
  支持使用单图或多图作为参考，确保人脸、商品、风格等视觉元素的连贯性。