AI项目和框架 - 第 68 页

Kyutai TTS

Kyutai TTS 是法国人工智能研究机构 Kyutai Labs 推出的流式文本转语音（TTS）技术。是创新的语音合成系统，能实时将文本转换为自然流畅的语音，无需等待完整...

阅读原文

AI工具

11个月前

Skywork-Reward-V2

Skywork-Reward-V2是昆仑万维开源的第二代奖励模型系列，包含基于不同基座模型和大小的8个模型，参数规模从6亿到80亿不等。Skywork-Reward-V2系列模型在七大...

阅读原文

AI工具

11个月前

Nxtscape

Nxtscape 是基于 Chromium 的开源浏览器，主打本地 AI Agent和隐私保护。Nxtscape支持用户在设备上直接运行 AI 自动化任务（如填表、会议调度），数据不离开...

阅读原文

AI工具

12个月前

MuseSteamer

MuseSteamer是百度推出的多模态AI视频生成大模型。模型能根据输入的图片或文字提示，生成高质量的动态视频，支持电影级画质和音效一体化生成。

阅读原文

AI工具

12个月前

DeepSWE

DeepSWE是Together.ai联合Agentica开源的AI Agent框架，基于Qwen3-32B模型，用强化学习训练而成。DeepSWE在SWE-Bench-Verified基准测试中表现出色，测试时扩...

阅读原文

AI工具

12个月前

Step-Audio-AQAA

Step-Audio-AQAA 是 StepFun 团队推出的端到端大型音频语言模型，专门用于音频查询-音频回答（AQAA）任务。能直接处理音频输入生成自然、准确的语音回答，无...

阅读原文

AI工具

12个月前

Mercury

Mercury是由Inception Labs推出的专为聊天应用量身定制的商业级扩散（LLM）。基于“从粗到细”（coarse-to-fine）的生成过程，能并行生成多个token，显著提高文...

阅读原文

AI工具

12个月前

MirrorMe

MirrorMe是阿里通义实验室推出的实时、高保真音频驱动肖像动画框架。框架基于LTX视频模型，结合三项关键创新，身份注入机制、音频驱动控制模块和渐进式训练策...

阅读原文

AI工具

12个月前

寸止

寸止是开源的AI对话增强工具，能解决AI助手提前终止对话的问题。工具具备智能拦截功能，当AI想要结束对话时，自动弹出继续选项，让用户能深入交流。寸止支持...

阅读原文

AI工具

12个月前

GLM-4.1V-Thinking

GLM-4.1V-Thinking是智谱AI推出的开源视觉语言模型，专为复杂认知任务设计，支持图像、视频、文档等多模态输入。模型在GLM-4V架构基础上引入思维链推理机制，...

阅读原文

AI工具

12个月前

BlenderFusion

BlenderFusion是Google DeepMind推出的生成式视觉合成框架，将传统的 3D 编辑软件（Blender）与AI 模型相结合，实现精准的几何编辑和多样的视觉合成。

阅读原文

AI工具

12个月前

ML-Master

ML-Master是上海交通大学人工智能学院Agents团队推出ML-Master - 上海交大推出的AI专家Agent的AI专家智能体。在OpenAI的权威基准测试MLE-bench中表现出色，以...

阅读原文

AI工具

12个月前

ThinkSound

ThinkSound是阿里通义语音团队推出的首个CoT（链式思考）音频生成模型，用在视频配音，为每一帧画面生成专属匹配音效。模型引入CoT推理，解决传统技术难以捕...

阅读原文

AI工具

12个月前

MAI-DxO

MAI-DxO（Microsoft AI Diagnostic Orchestrator）是微软推出的先进人工智能系统，能提升医疗诊断的准确性和效率。基于模拟一组具有不同诊断方法的虚拟医生协...

阅读原文

AI工具

12个月前

RecGPT

RecGPT是淘天集团推出的百亿参数推荐大模型。现已全面接入手机淘宝首屏“猜你喜欢”信息流，基于融合多模态认知、用户行为分析及实时热点理解，精准捕捉用户长...

阅读原文

AI工具

12个月前