Follow-Your-Click

Follow-Your-Click是一款由腾讯公司的混元团队与清华大学和香港科技大学的研究人员联合开发的图像到视频（Image-to-Video，简称I2V）生成模型。该模型的独特之处在于，用户仅需通过简单的点击和简短的动作提示，即可将静态图像转化为动态视频，生成局部动画效果，克服了以往技术只能对整个场景进行移动的局限性。

Follow-Your-Click是什么

Follow-Your-Click是一项创新的图像到视频生成技术，旨在通过用户友好的交互方式，让用户轻松地将静态图像动画化。用户可以通过点击选择感兴趣的区域，并输入简单的动作提示，来实现所需的动画效果。这种方法在动图库中引入了局部动画的概念，使得用户能够将图像中的特定部分赋予生命。

Follow-Your-Click

Follow-Your-Click的官网入口

官方项目主页：https://follow-your-click.github.io/
arXiv研究论文：https://arxiv.org/abs/2403.08268（注：源码和Demo预计4月份上线）
GitHub代码库：https://github.com/mayuelala/FollowYourClick

Follow-Your-Click的主要功能

直观的用户交互：Follow-Your-Click为用户提供了简洁明了的控制界面，用户只需简单点击图像，即可选择动画区域，并用简短的描述定义动作类型。
局部动画生成：用户可以针对图像中具体的区域进行动画处理，使其产生生动的动态效果，例如使物体微笑、摇动或移动。
多对象动画支持：该模型能够同时对图像中的多个对象进行动画处理，帮助用户创造更丰富和复杂的动态场景。
简短动作提示：用户只需提供简洁的动作描述，模型便能理解并生成相应的动画效果，从而简化了动画制作的过程。
高质量视频生成：借助先进的技术策略，如第一帧遮罩策略和基于光流的运动幅度控制，确保生成的视频质量高且真实。
运动速度控制：用户可以精确控制动画对象的运动速度，满足多样化的动画需求。

Follow-Your-Click的工作原理

用户交互：用户首先通过点击图像上的特定区域选择需要动画的对象，接着提供简短的动作提示，如“摇动”或“微笑”，以定义所选区域的动画行为。
图像分割：为了将用户的点击转化为可用于动画的区域掩码，框架集成了SAM（Segment Anything）工具，以高质量生成对象掩码。
第一帧遮罩策略：为提升视频生成的质量，框架采用第一帧遮罩策略，通过随机遮罩输入图像的一部分，增强模型学习时间相关性的能力。
运动增强模块：该模块通过新的交叉注意力层，提升模型对简短动作提示的响应能力。训练阶段使用短动作提示，而推理阶段则将这些提示输入到运动增强模块中。
基于光流的运动幅度控制：该方法通过计算光流的平均幅度来控制运动强度，确保在所有帧中一致地应用运动速率。
视频生成：在推理阶段，用户的点击位置和动作提示被用于生成动画视频，模型结合用户指定的区域掩码和动作提示，生成连贯的动画帧，同时保持输入图像其它部分静止。