AI-Media2Doc

AI-Media2Doc – 开源AI图文创作助手，一键将音视频内容转为文档

AI-Media2Doc

AI-Media2Doc 是一款开源的音视频转文档工具，运用先进的AI大模型技术，能够将音视频内容智能地转换为多种文档形式，如小红书笔记、公众号文章、知识笔记、思维导图和视频字幕。该工具支持纯前端处理，不需要在本地安装ffmpeg，任务记录保存在用户本地，确保数据安全，适合内容创作者、学生和研究人员等群体，有助于高效地提取和整理信息。

AI-Media2Doc是什么

AI-Media2Doc 是一款开源音视频转换工具，利用AI大模型技术，能够将音频和视频内容智能地转化为多种文档格式，包括小红书笔记、公众号文章、知识笔记、思维导图和视频字幕。该工具完全基于前端处理，无需用户安装ffmpeg，所有任务记录均保存在本地，确保用户信息的安全。AI-Media2Doc特别适合内容创作者、学生和研究人员，帮助他们高效提取和整理学习或创作所需的信息。

AI-Media2Doc的主要功能

音视频转文档：用户只需一键操作，即可将音视频内容转化为多种文档形式，适用于小红书笔记、公众号文章、知识笔记、思维导图及视频字幕等。
AI智能处理：基于强大的大模型技术，能够实现内容的智能总结和多种风格文档的生成，支持与视频内容的AI问答及二次对话。
纯前端处理：借助ffmpeg wasm技术，无需在本地安装ffmpeg，即可通过浏览器直接进行处理。
隐私保护：无须注册或登录，所有任务记录保存在本地，确保用户数据的安全性。
本地部署：支持本地运行，用户可通过Docker一键部署，便于在本地环境中使用。
多种导出格式：生成的文档和思维导图可导出至多种第三方平台，方便后续编辑和分享。

如何使用AI-Media2Doc

本地部署：
- 克隆项目代码：打开终端或命令行工具，运行以下命令以克隆项目代码。

git clone https://github.com/hanshuaikang/AI-Media2Doc.git
cd AI-Media2Doc

- 安装Python依赖（后端）：安装项目所需的Python依赖。

pip install -r backend/requirements.txt

- 配置环境变量：在backend目录下创建一个.env文件，填写API密钥。

OPENAI_API_KEY=your_openai_api_key
GROK_API_KEY=your_grok_api_key
DEEPSEEK_API_KEY=your_deepseek_api_key

- 启动FastAPI服务：启动后端服务。

uvicorn backend.main:app --reload

- 安装前端依赖并启动服务：安装前端依赖并启动前端服务。

cd frontend
npm install
npm run serve

- 访问本地服务器：打开浏览器，访问http://localhost:8080，即可开始使用。
使用方法：
- 新建任务：在页面上新建一个任务，上传音视频文件或输入外链地址。
- 选择输出风格：选择希望生成的文档风格，如小红书、公众号、知识笔记、思维导图等。
- 生成图文：点击“生成”按钮，系统将自动处理音视频内容生成相应的文档。
- 二次对话：在右侧界面输入问题（如“视频的主旨是什么？”），AI将基于内容回答。
- 导出结果：生成的文档和思维导图可以导出到第三方平台，如幕布、ProcessOn等，方便进一步编辑和使用。