腾讯混元文生图大模型开源:Sora 同架构,更懂中文

AIGC动态6个月前发布 Founder Park
11 0 0

腾讯混元文生图大模型开源:Sora 同架构,更懂中文

AIGC动态欢迎阅读

原标题:腾讯混元文生图大模型开源:Sora 同架构,更懂中文
关键字:腾讯,模型,视频,能力,参数
文章来源:Founder Park
内容字数:16850字

内容摘要:


又一家大模型开源了,这次是腾讯。
5 月 14 日,腾讯旗下的混元文生图大模型宣布对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
随后在 5 月 17 日,腾讯集团副总裁蒋杰在在腾讯云生成式 AI 产业应用峰会上表示,腾讯混元大模型通过持续迭代,目前整体性能已居国内第一梯队,部分中文能力已追平 GPT-4
针对备受关注的生视频能力,腾讯混元支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力,已经支持 16s 视频生成。在生 3D 层面,腾讯混元已布局文/图生 3D,单图仅需 30 秒即可生成 3D 模型。
混元文生图大模型是业内首个中文原生的 DiT(Diffusion Models with transformer)架构文生图开源模型,这也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术,是一种基于 Transformer 架构的扩散模型。混元文生图大模型支持中英文双语输入及理解,参数量 15 亿。
过去,视觉生成扩散模型主要基于 U-N


原文链接:腾讯混元文生图大模型开源:Sora 同架构,更懂中文

联系作者

文章来源:Founder Park
作者微信:Founder-Park
作者简介:来自极客公园,专注与科技创业者聊「真问题」。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...