FunClip是阿里达摩院推出的一款开源且可本地部署的自动化视频剪辑工具,利用阿里巴巴通义实验室的FunASR Paraformer系列模型实现视频内容的自动语音识别。用户可以根据识别结果迅速选择所需的文本片段或特定的说话人,从而高效裁剪出所需的视频片段。
FunClip是什么
FunClip是一款由阿里达摩院通义实验室开发的完全开源和本地部署的自动视频剪辑工具。该工具通过调用阿里巴巴通义实验室的FunASR Paraformer系列模型,实现了视频的自动化语音识别。用户可以基于识别到的文本,轻松选择特定片段或说话人,快速生成所需的视频内容。FunClip具备高精度的中文ASR模型,支持热词定制、说话人识别,且提供了Gradio交互界面,极大地方便了用户的操作。此外,FunClip还支持多段剪辑,并能够自动生成SRT字幕文件。
FunClip的主要功能
- 自动语音识别:采用阿里巴巴通义实验室的FunASR Paraformer系列模型,对视频进行语音转文字处理。
- 热词定制:通过集成的SeACo-Paraformer模型,用户可指定特定实体词或人名作为热词,以提高特定词汇的识别准确性。
- 说话人识别:集成CAM++说话人识别模型,用户可以根据自动识别的说话人ID裁剪特定说话人的视频片段。
- 视频裁剪:用户可选择识别结果中的文本片段或特定说话人,通过点击裁剪按钮生成对应的视频片段。
- Gradio交互界面:通过Gradio搭建的界面,简化了视频剪辑的操作流程,用户可在服务端建立服务并通过浏览器操作。
- 多段剪辑支持:FunClip允许用户进行多段视频剪辑,提供灵活的编辑能力。
- 自动生成字幕:剪辑后的视频可自动生成全视频及目标段落的SRT字幕文件,方便用户进行字幕的添加和编辑。
- 命令行调用:除了图形界面,FunClip还支持命令行操作,提供更灵活的使用方式。
FunClip的官网入口
- 官方GitHub源码地址:https://github.com/alibaba-damo-academy/FunClip
- ModelScope魔搭社区在线Demo:https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary
如何使用FunClip
方法一:本地部署Gradio版本
首先确保您的计算机上已安装Python和Git,然后打开终端,依次输入并运行以下命令:
git clone https://github.com/alibaba-damo-academy/FunClip.git
cd FunClip && pip install -r ./requirements.txt
python funclip/launch.py
最后在浏览器中访问localhost:7860
即可体验FunClip。
方法二:在线体验魔搭社区Demo
访问魔搭社区提供的在线Demo,然后按照以下步骤操作:
- 上传视频或音频文件(或使用下方的示例进行体验),点击「识别」按钮。
- 从识别结果中复制所需的文字到右上方,或设置说话人标识,配置偏移与字幕(可选)。
- 点击「裁剪」或「裁剪并添加字幕」按钮以获得结果。
方法三:命令行运行相关指令
打开终端,依次输入以下命令:
# 1. 克隆GitHub源代码 git clone https://github.com/alibaba-damo-academy/FunClip.git # 2. 安装Python依赖 cd FunClip && pip install -r ./requirements.txt # 3. 添加视频进行识别 python funclip/videoclipper.py --stage 1 \ --file examples/2022云栖大会_片段.mp4 \ --output_dir ./output # ./output/目录将输出识别结果和.srt字幕文件 # 4. 裁剪命令 python funclip/videoclipper.py --stage 2 \ --file examples/2022云栖大会_片段.mp4 \ --output_dir ./output \ --dest_text '我们把它跟乡村振兴去结合起来,利用我们的设计的能力' \ --start_ost 0 \ --end_ost 100 \ --output_file './output/res.mp4'
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...