AI项目和框架 - 第 34 页

万相2.6

万相2.6 是阿里通义推出的面向专业影视制作和图像创作的先进视频生成系列模型。模型支持角色扮演功能，可让用户通过上传视频和输入提示词，快速生成具有电影...

阅读原文

AI工具

6个月前

通义百聆

通义百聆是阿里通义实验室推出的企业级语音基座大模型，整合 Fun-ASR 语音识别和 Fun-CosyVoice 语音合成两大模型，专为复杂环境下的语音应用设计，通过 Cont...

阅读原文

AI工具

6个月前

Nemotron 3

Nemotron 3 是英伟达推出的新型开源模型系列，包括 Nano、Super 和 Ultra 三种尺寸。模型采用突破性的混合专家混合（MoE）架构，专为构建高效、准确的多智能...

阅读原文

AI工具

6个月前

LightX2V

LightX2V 是商汤开源的行业首个能实现实时视频生成的推理框架。框架支持多种视频生成任务，如文本到视频（T2V）和图像到视频（I2V），集成多种先进视频生成技...

阅读原文

AI工具

6个月前

UnityVideo

UnityVideo 是香港科技大学联合快手可灵团队、清华大学等推出的新型多模态、多任务视频生成框架，能通过整合多种视觉模态（如分割、骨架、深度、光流等）和训...

阅读原文

AI工具

6个月前

Wan-Move

Wan-Move 是阿里巴巴通义实验室等机构开源的运动可控视频生成框架，通过潜在轨迹引导实现高质量的视频运动控制。核心亮点在于无需对现有图像到视频模型进行架...

阅读原文

AI工具

6个月前

Paper2Slides

Paper2Slides 是香港大学开源的AI工具，能快速将学术论文、报告和文档转换为专业幻灯片或海报。采用 RAG（检索增强生成）机制，直接从文档本身提取内容，确保...

阅读原文

AI工具

6个月前

OpenScreen

OpenScreen 是开源免费的屏幕录制工具，是 Screen Studio 的平替。工具支持 Mac 和 Windows 系统，具备手动缩放、自定义缩放深度、裁剪视频、选择背景、添加...

阅读原文

AI工具

6个月前

LLaDA 2.0

LLaDA 2.0 是蚂蚁集团开源的离散扩散大语言模型（dLLM），包含 16B（mini）和 100B（flash）两个版本。打破了扩散模型难以扩展的瓶颈，首次将参数规模扩展至 ...

阅读原文

AI工具

6个月前

Claude-Mem

Claude-Mem 是专为 Claude Code 设计的开源插件，能为 AI 提供长期记忆能力。Claude-Mem通过自动存储和管理会话中的关键信息，包括工具调用、对话记录和项目...

阅读原文

AI工具

6个月前

Gemini TTS

Gemini TTS 是谷歌推出的先进文字转语音技术，最新版本为 Gemini 2.5 Flash 和 Pro 模型。支持多说话人、多语言（24种以上）合成，可生成自然流畅且富有情感...

阅读原文

AI工具

6个月前

SCAIL

SCAIL（Studio-grade Character Animation via In-context Learning）是智谱AI推出的面向影视级标准的角色动画生成框架。框架通过创新的3D一致性姿态表征和全...

阅读原文

AI工具

6个月前

SSVAE

SSVAE（Spectral-Structured VAE）是智谱AI推出的优化视频生成的新型变分自编码器。SSVAE通过谱分析发现，视频 VAE 的隐空间若具备时空低频偏置和通道特征值...

阅读原文

AI工具

6个月前

Kaleido

Kaleido 是智谱AI开源的多主体视频生成框架，能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE（Reference Rotary P...

阅读原文

AI工具

6个月前

GPT-5.2

GPT-5.2 是 OpenAI 最新发布的先进人工智能模型系列，专为专业工作和复杂任务设计。模型提供三种版本：GPT-5.2 Instant 适用快速处理日常任务，如信息查询和...

阅读原文

AI工具

6个月前