Mochi 1

Mochi 1是由Genmo公司推出的一款开源视频生成模型，凭借其卓越的动作质量和出色的用户提示遵循能力而备受瞩目。该模型在Apache 2.0许可证下发布，允许个人和商业用户免费使用。目前提供480p的基础版本，预计年底前将推出720p高清版本Mochi 1 HD，以实现更高的画质和更流畅的动作表现。

Mochi 1是什么

Mochi 1是Genmo公司开发的开源AI视频生成模型，专注于高质量的动作生成和精准的用户提示响应。该模型基于Apache 2.0许可证，允许用户在个人和商业项目中自由使用。当前版本提供480p的分辨率，计划在年底推出更高分辨率的Mochi 1 HD版本，旨在提供更真实的视觉体验和流畅的动作效果。用户可以在Hugging Face平台上找到Mochi 1的模型权重和架构，Genmo还提供了一个在线游乐场，让用户可以免费体验Mochi 1的强大功能。

Mochi 1

Mochi 1的主要功能

高保真度动作生成：Mochi 1在动作生成方面表现卓越，能够创建流畅且符合物理规律的视频，包括流体动力学、毛发动态等，提供连贯自然的人类动作表现，逐渐克服了“恐怖谷”效应。
精准的提示遵循能力：Mochi 1能够准确解析用户的提示，生成符合预期的视频内容。该模型通过结合文本和视觉标记，类似于Stable Diffusion 3，采用流式架构，其参数量几乎是文本流的四倍，显著提升了生成的准确性。
开源架构：Mochi 1的模型权重和源代码依据Apache 2.0开源许可证发布，用户可以自由下载并使用，适用于个人及商业用途。
高效能处理：Mochi 1利用Genmo自研的非对称扩散变压器（Asymmetric Diffusion Transformer，简称AsymmDiT）架构，专注于视觉效果的同时简化文本处理，能更高效地处理用户提示和视频数据。
在线游乐场：Genmo提供了一个全新的在线游乐场，用户可以在此免费试用Mochi 1的功能，亲身体验视频生成的乐趣。
高参数量：Mochi 1采用了100亿参数的扩散模型，确保了生成结果的高准确性和多样性。

Mochi 1的技术原理

非对称扩散变压器（AsymmDiT）架构：Mochi 1采用了Genmo自主研发的非对称扩散变压器架构，此架构通过简化文本处理，专注于视觉效果，有效处理用户提示并压缩视频令牌。AsymmDiT结合文本和视觉标记生成视频，类似于Stable Diffusion 3，但其流式架构在隐藏维度上更大，参数数量几乎是文本流的四倍，同时其非对称设计减少了部署时的内存占用。
实时视频生成技术：Mochi 1运用金字塔注意力广播（Pyramid Attention Broadcast，PAB）技术，减少冗余的注意力计算，达到了21.6 FPS的高帧率和10.6倍的加速，而不牺牲视频生成质量。这项技术为未来基于DiT的视频生成模型提供了加速支持，使其具备实时生成的潜力。