标签:视频内容分析

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

video-use

Video-use 是 Browser Use 团队开源的 AI 视频剪辑 Agent,通过自然语言对话替代传统时间线操作。用户只需将原始素材放入文件夹并描述需求,Agent 自动完成素...
阅读原文

阿里JVS Claw实测

最近这些天,身边的朋友都在讨论怎么“养虾”。 大家口中的“虾”,其实是近期爆火的 AI Agent 框架 OpenClaw, 一个24 小时待命的 AI 助理。 试问谁不想拥有一...
阅读原文

Vidu Q3

Vidu Q3 是生数科技推出的全球首款 16 秒音画同步 AI 视频模型,专为短剧、漫剧、广告等叙事场景打造。一次提示即可直出 16 秒 1080p 成片,画面、对白、环境...
阅读原文

MMSI-Video-Bench

MMSI-Video-Bench 是用于评估多模态大语言模型(MLLMs)在视频空间智能方面能力的基准测试工具。由上海人工智能实验室等多所高校联合推出,全面评估模型在真...
阅读原文

DeepEyesV2

DeepEyesV2 是小红书团队推出的多模态智能体模型,通过两阶段训练法实现强大的工具调用和多模态推理能力。模型能理解图文信息,支持主动调用代码执行、网络搜...
阅读原文

Open-o3 Video

Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型,通过整合显式的时空证据(关键时间戳和边界框)来实现精准的视频推理。通过精心策划的 STGR...
阅读原文

Deep Video Discovery

Deep Video Discovery(DVD)是微软推出的深度视频探索智能体,专为理解和分析长视频设计。Deep Video Discovery将长视频分割成多个较短的片段,基于大型语言...
阅读原文

DeepEyes

DeepEyes 是小红书团队和西安交通大学联合推出的多模态深度思考模型。基于端到端强化学习,实现类似 OpenAI o3 的“用图思考”能力,无需依赖监督微调(SFT)。...
阅读原文

万相首尾帧模型

万相首尾帧模型(Wan2.1-FLF2V-14B)是开源的14B参数规模的首尾帧生视频模型。模型根据用户提供的首帧和尾帧图像,自动生成流畅的高清视频过渡效果,支持多种...
阅读原文

VideoCaptioner

VideoCaptioner(中文名:卡卡字幕助手)是基于大语言模型(LLM)的智能字幕处理工具,能简化视频字幕的生成与优化流程。VideoCaptioner支持语音识别、字幕断...
阅读原文

JoyCaption

JoyCaption 是开源的图像提示词生成工具,用于训练扩散模型。JoyCaption 涵盖广泛的图像风格、内容、种族、性别和取向,最小化过滤理解世界的各个方面,但不...
阅读原文

video-analyzer

video-analyzer是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细描述。工具支持完全本...
阅读原文

Lobe Vidol:智能交互平台让你与虚拟人和3D模型实时对话探索新世界

Lobe Vidol是开源的数字人创作平台,让每个人都能轻松创建和互动自己的虚拟偶像。Lobe Vidol提供流畅的对话体验、背景设置、动作姿势库、优雅的用户界面、角...
阅读原文

checksub:全球覆盖的AI视频字幕生成工具,支持200多种语言自动翻译与精准识别

checksub是AI视频翻译和配音工具,能自动生成200多种语言的字幕,提供AI配音服务。通过集成字幕生成、翻译和配音功能,帮助视频内容跨越语言障碍,扩大全球影...
阅读原文

LTX Video:Lightricks推出开源AI视频生成模型,轻松创建高质量视频内容

LTX Video是Lightricks推出的开源AI视频生成模型,能在4秒内生成5秒的高质量视频,速度超过观看速度。基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,...
阅读原文
12