AI项目和框架 - 第 38 页

OpenScreen

OpenScreen 是开源免费的屏幕录制工具，是 Screen Studio 的平替。工具支持 Mac 和 Windows 系统，具备手动缩放、自定义缩放深度、裁剪视频、选择背景、添加...

阅读原文

AI工具

6个月前

LLaDA 2.0

LLaDA 2.0 是蚂蚁集团开源的离散扩散大语言模型（dLLM），包含 16B（mini）和 100B（flash）两个版本。打破了扩散模型难以扩展的瓶颈，首次将参数规模扩展至 ...

阅读原文

AI工具

6个月前

Claude-Mem

Claude-Mem 是专为 Claude Code 设计的开源插件，能为 AI 提供长期记忆能力。Claude-Mem通过自动存储和管理会话中的关键信息，包括工具调用、对话记录和项目...

阅读原文

AI工具

6个月前

Gemini TTS

Gemini TTS 是谷歌推出的先进文字转语音技术，最新版本为 Gemini 2.5 Flash 和 Pro 模型。支持多说话人、多语言（24种以上）合成，可生成自然流畅且富有情感...

阅读原文

AI工具

6个月前

SCAIL

SCAIL（Studio-grade Character Animation via In-context Learning）是智谱AI推出的面向影视级标准的角色动画生成框架。框架通过创新的3D一致性姿态表征和全...

阅读原文

AI工具

6个月前

SSVAE

SSVAE（Spectral-Structured VAE）是智谱AI推出的优化视频生成的新型变分自编码器。SSVAE通过谱分析发现，视频 VAE 的隐空间若具备时空低频偏置和通道特征值...

阅读原文

AI工具

6个月前

Kaleido

Kaleido 是智谱AI开源的多主体视频生成框架，能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE（Reference Rotary P...

阅读原文

AI工具

6个月前

GPT-5.2

GPT-5.2 是 OpenAI 最新发布的先进人工智能模型系列，专为专业工作和复杂任务设计。模型提供三种版本：GPT-5.2 Instant 适用快速处理日常任务，如信息查询和...

阅读原文

AI工具

6个月前

Gemini Deep Research

Gemini Deep Research 是谷歌推出的深度研究智能体，基于 Gemini 3 Pro 构建，专为长周期的内容收集与综合任务优化。智能体通过多步骤强化学习，能在复杂信息...

阅读原文

AI工具

6个月前

GWM-1

GWM-1 是 Runway 推出的首个通用世界模型，基于 Gen-4.5 构建，采用自回归架构逐帧预测视频内容，可实时交互。模型分为三个分支：GWM Worlds 用于实时环境模...

阅读原文

AI工具

6个月前

DeepSearchQA

DeepSearchQA是谷歌开源的新基准测试工具，用于评估Agent在网络研究任务中的全面性和多步查询能力。工具包含17个领域共900个手工设计的“因果链”任务，每一步...

阅读原文

AI工具

6个月前

GLM-TTS

GLM-TTS 是智谱推出的基于多奖励强化学习的工业级语音合成系统，具备音色复刻、多情感表达、高精度文本理解和高质量语音输出等功能。

阅读原文

AI工具

6个月前

VoxCPM1.5

VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音（TTS）模型，专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生...

阅读原文

AI工具

6个月前

Qwen3-Omni-Flash

Qwen3-Omni-Flash（Qwen3-Omni-Flash-2025-12-01）是阿里 Qwen 团队推出的全模态大模型。模型能无缝处理文本、图像、音频和视频等多种输入形式，实时生成高...

阅读原文

AI工具

6个月前

PosterCopilot

PosterCopilot 是南京大学联合 LibLib.ai 和中科院自动化所共同推出的专业级海报设计大模型。模型通过独特的三阶段训练策略，赋予模型强大的布局推理和精准编...

阅读原文

AI工具

6个月前