Gemini TTS

Gemini TTS 是谷歌推出的先进文字转语音技术,最新版本为 Gemini 2.5 Flash 和 Pro 模型。支持多说话人、多语言(24种以上)合成,可生成自然流畅且富有情感...
阅读原文

SCAIL

SCAIL(Studio-grade Character Animation via In-context Learning)是智谱AI推出的面向影视级标准的角色动画生成框架。框架通过创新的3D一致性姿态表征和全...
阅读原文

SSVAE

SSVAE(Spectral-Structured VAE)是智谱AI推出的优化视频生成的新型变分自编码器。SSVAE通过谱分析发现,视频 VAE 的隐空间若具备时空低频偏置和通道特征值...
阅读原文

LuxReal

LuxReal 是群核科技推出的 AI 3D视频创作平台。平台能基于图像、3D 模型等多模态输入,快速生成主体一致、画面可控的视频内容,适用电商、影视、广告等行业。L
阅读原文

OiiOii教程

做动画的AI智能体终于来啦!上个月,OiiOii 作为全球首个专业动画创作 Agent 问世,连邀请码都一码难求。OiiOii 内置7个动画Agent,预设了162种动画风格,操...
阅读原文

Kaleido

Kaleido 是智谱AI开源的多主体视频生成框架,能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE(Reference Rotary P...
阅读原文

OiiOii邀请码

OiiOii 是全球首个专业动画创作Agent,借助智能 Agent 能实现动画从构思到成品的快速生成。用户只需输入简单指令,即可获得动画短片、视频或图片。
阅读原文

GPT-5.2

GPT-5.2 是 OpenAI 最新发布的先进人工智能模型系列,专为专业工作和复杂任务设计。模型提供三种版本:GPT-5.2 Instant 适用快速处理日常任务,如信息查询和...
阅读原文

Gemini Deep Research

Gemini Deep Research 是谷歌推出的深度研究智能体,基于 Gemini 3 Pro 构建,专为长周期的内容收集与综合任务优化。智能体通过多步骤强化学习,能在复杂信息...
阅读原文

GWM-1

GWM-1 是 Runway 推出的首个通用世界模型,基于 Gen-4.5 构建,采用自回归架构逐帧预测视频内容,可实时交互。模型分为三个分支:GWM Worlds 用于实时环境模...
阅读原文

DeepSearchQA

DeepSearchQA是谷歌开源的新基准测试工具,用于评估Agent在网络研究任务中的全面性和多步查询能力。工具包含17个领域共900个手工设计的“因果链”任务,每一步...
阅读原文

GLM-TTS

GLM-TTS 是智谱推出的基于多奖励强化学习的工业级语音合成系统,具备音色复刻、多情感表达、高精度文本理解和高质量语音输出等功能。
阅读原文

VoxCPM1.5

VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音(TTS)模型,专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生...
阅读原文

Qwen3-Omni-Flash

Qwen3-Omni-Flash(Qwen3-Omni-Flash-2025-12-01) 是阿里 Qwen 团队推出的全模态大模型。模型能无缝处理文本、图像、音频和视频等多种输入形式,实时生成高...
阅读原文