AI工具

UnityVideo

UnityVideo 是香港科技大学联合快手可灵团队、清华大学等推出的新型多模态、多任务视频生成框架,能通过整合多种视觉模态(如分割、骨架、深度、光流等)和训...
阅读原文

Wan-Move

Wan-Move 是阿里巴巴通义实验室等机构开源的运动可控视频生成框架,通过潜在轨迹引导实现高质量的视频运动控制。核心亮点在于无需对现有图像到视频模型进行架...
阅读原文

Mulan

Mulan是创新的 AI 视频创作平台,为用户提供高效、便捷的视频生成体验。借助画布 Workflow 实现视频的批量生成,通过简单替换素材,可快速迭代出风格相似的视...
阅读原文

Genstory

Genstory 是基于 Gemini Storybook 技术的免费 AI 故事生成平台,能将用户的简单想法瞬间转化为精美的绘本故事。用户只需输入故事提示,如“勇敢的小女孩拯救...
阅读原文

Paper2Slides

Paper2Slides 是香港大学开源的AI工具,能快速将学术论文、报告和文档转换为专业幻灯片或海报。采用 RAG(检索增强生成)机制,直接从文档本身提取内容,确保...
阅读原文

OpenScreen

OpenScreen 是开源免费的屏幕录制工具,是 Screen Studio 的平替。工具支持 Mac 和 Windows 系统,具备手动缩放、自定义缩放深度、裁剪视频、选择背景、添加...
阅读原文

LensGo AI

LensGo AI 是创新的 AI 创作平台,支持将简单的文字提示、照片或原始视频素材转化为风格化的图像和视频内容。平台通过强大的多模式创作引擎,让用户在浏览器...
阅读原文

LLaDA 2.0

LLaDA 2.0 是蚂蚁集团开源的离散扩散大语言模型(dLLM),包含 16B(mini)和 100B(flash)两个版本。打破了扩散模型难以扩展的瓶颈,首次将参数规模扩展至 ...
阅读原文

Claude-Mem

Claude-Mem 是专为 Claude Code 设计的开源插件,能为 AI 提供长期记忆能力。Claude-Mem通过自动存储和管理会话中的关键信息,包括工具调用、对话记录和项目...
阅读原文

Gemini TTS

Gemini TTS 是谷歌推出的先进文字转语音技术,最新版本为 Gemini 2.5 Flash 和 Pro 模型。支持多说话人、多语言(24种以上)合成,可生成自然流畅且富有情感...
阅读原文

SCAIL

SCAIL(Studio-grade Character Animation via In-context Learning)是智谱AI推出的面向影视级标准的角色动画生成框架。框架通过创新的3D一致性姿态表征和全...
阅读原文

SSVAE

SSVAE(Spectral-Structured VAE)是智谱AI推出的优化视频生成的新型变分自编码器。SSVAE通过谱分析发现,视频 VAE 的隐空间若具备时空低频偏置和通道特征值...
阅读原文

LuxReal

LuxReal 是群核科技推出的 AI 3D视频创作平台。平台能基于图像、3D 模型等多模态输入,快速生成主体一致、画面可控的视频内容,适用电商、影视、广告等行业。L
阅读原文

Kaleido

Kaleido 是智谱AI开源的多主体视频生成框架,能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE(Reference Rotary P...
阅读原文

GPT-5.2

GPT-5.2 是 OpenAI 最新发布的先进人工智能模型系列,专为专业工作和复杂任务设计。模型提供三种版本:GPT-5.2 Instant 适用快速处理日常任务,如信息查询和...
阅读原文
145678297