AI项目和框架
Kyutai TTS
Kyutai TTS 是法国人工智能研究机构 Kyutai Labs 推出的流式文本转语音(TTS)技术。是创新的语音合成系统,能实时将文本转换为自然流畅的语音,无需等待完整...
Skywork-Reward-V2
Skywork-Reward-V2是昆仑万维开源的第二代奖励模型系列,包含基于不同基座模型和大小的8个模型,参数规模从6亿到80亿不等。Skywork-Reward-V2系列模型在七大...
Step-Audio-AQAA
Step-Audio-AQAA 是 StepFun 团队推出的端到端大型音频语言模型,专门用于音频查询-音频回答(AQAA)任务。能直接处理音频输入生成自然、准确的语音回答,无...
GLM-4.1V-Thinking
GLM-4.1V-Thinking是智谱AI推出的开源视觉语言模型,专为复杂认知任务设计,支持图像、视频、文档等多模态输入。模型在GLM-4V架构基础上引入思维链推理机制,...
BlenderFusion
BlenderFusion是Google DeepMind推出的生成式视觉合成框架,将传统的 3D 编辑软件(Blender)与AI 模型相结合,实现精准的几何编辑和多样的视觉合成。
ThinkSound
ThinkSound是阿里通义语音团队推出的首个CoT(链式思考)音频生成模型,用在视频配音,为每一帧画面生成专属匹配音效。模型引入CoT推理,解决传统技术难以捕...