AI项目和框架

GLM-TTS

GLM-TTS 是智谱推出的基于多奖励强化学习的工业级语音合成系统,具备音色复刻、多情感表达、高精度文本理解和高质量语音输出等功能。
阅读原文

VoxCPM1.5

VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音(TTS)模型,专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生...
阅读原文

Qwen3-Omni-Flash

Qwen3-Omni-Flash(Qwen3-Omni-Flash-2025-12-01) 是阿里 Qwen 团队推出的全模态大模型。模型能无缝处理文本、图像、音频和视频等多种输入形式,实时生成高...
阅读原文

PosterCopilot

PosterCopilot 是南京大学联合 LibLib.ai 和中科院自动化所共同推出的专业级海报设计大模型。模型通过独特的三阶段训练策略,赋予模型强大的布局推理和精准编...
阅读原文

Mistral Vibe CLI

Mistral Vibe CLI 是Mistral AI 推出的开源命令行代码助手,能通过自然语言交互帮助开发者高效完成代码任务。Mistral Vibe CLI 能自动感知项目结构和 Git 状...
阅读原文

Devstral 2

Devstral 2 是 Mistral AI 推出的新一代开源编程模型系列,包含 123B 参数的 Devstral 2 和 24B 参数的 Devstral Small 2。Devstral 2 拥有 256K 上下文窗口...
阅读原文

GLM-ASR

GLM-ASR是智谱AI推出的系列语音识别模型,包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型,支持多场景、多语...
阅读原文

Open-AutoGLM

Open-AutoGLM 是智谱开源的手机端智能助理框架,基于 AutoGLM 构建,能通过自然语言指令实现手机操作的自动化。Open-AutoGLM通过 Phone Use 能力框架,将自然...
阅读原文

GLM-4.6V

GLM-4.6V 是智谱推出的多模态大模型,包含面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)和面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)。
阅读原文

LongCat-Image

LongCat-Image 是美团开源的高性能图像生成模型,仅用 6B 参数在文生图和图像编辑上达到开源顶尖水平。模型采用创新架构和训练策略,支持高质量中文文字渲染...
阅读原文

混元2.0

混元2.0是腾讯混元最新发布的先进人工智能语言模型,包括Tencent HY 2.0 Think和Tencent HY 2.0 Instruct两个版本。采用混合专家(MoE)架构,拥有4060亿总参...
阅读原文

RoboCOIN

RoboCOIN是北京智源人工智能研究院联合多所高校和企业发布的具身智能数据集。包含超过18万条演示数据,覆盖421种任务和16个不同场景,如家庭、商业、工厂等。...
阅读原文

Gemini3 DeepThink

Gemini 3 Deep Think 是谷歌 DeepMind 推出的超强推理模型,具备并行思考能力,可同时探索多个假设,选择最优答案路径。
阅读原文

Workspace Studio

Workspace Studio 是谷歌推出的 AI 自动化工具,用户可通过自然语言描述任务,基于 Gemini 模型快速生成定制化的 AI 智能体,实现复杂工作流程的自动化。工具...
阅读原文

Flowra

Flowra 是 ModelScope 联合呜哩WULI 团队开源的 AI 工作流开发工具,是 FlowBench 的核心引擎。工具提供图执行引擎和节点包开发工具链,支持丰富的类型系统、...
阅读原文
123159