腾讯混元文生图大模型开源：Sora 同架构，更懂中文

AIGC动态2年前 (2024)发布 Founder Park

AIGC动态欢迎阅读

原标题：腾讯混元文生图大模型开源：Sora 同架构，更懂中文
关键字：腾讯,模型,视频,能力,参数
文章来源：Founder Park
内容字数：16850字

内容摘要：

又一家大模型开源了，这次是腾讯。
5 月 14 日，腾讯旗下的混元文生图大模型宣布对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。
随后在 5 月 17 日，腾讯集团副总裁蒋杰在在腾讯云生成式 AI 产业应用峰会上表示，腾讯混元大模型通过持续迭代，目前整体性能已居国内第一梯队，部分中文能力已追平 GPT-4。
针对备受关注的生视频能力，腾讯混元支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力，已经支持 16s 视频生成。在生 3D 层面，腾讯混元已布局文/图生 3D，单图仅需 30 秒即可生成 3D 模型。
混元文生图大模型是业内首个中文原生的 DiT（Diffusion Models with transformer）架构文生图开源模型，这也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术，是一种基于 Transformer 架构的扩散模型。混元文生图大模型支持中英文双语输入及理解，参数量 15 亿。
过去，视觉生成扩散模型主要基于 U-N

原文链接：腾讯混元文生图大模型开源：Sora 同架构，更懂中文