AI项目和框架

Kaleido

Kaleido 是智谱AI开源的多主体视频生成框架,能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE(Reference Rotary P...
阅读原文

GPT-5.2

GPT-5.2 是 OpenAI 最新发布的先进人工智能模型系列,专为专业工作和复杂任务设计。模型提供三种版本:GPT-5.2 Instant 适用快速处理日常任务,如信息查询和...
阅读原文

Gemini Deep Research

Gemini Deep Research 是谷歌推出的深度研究智能体,基于 Gemini 3 Pro 构建,专为长周期的内容收集与综合任务优化。智能体通过多步骤强化学习,能在复杂信息...
阅读原文

GWM-1

GWM-1 是 Runway 推出的首个通用世界模型,基于 Gen-4.5 构建,采用自回归架构逐帧预测视频内容,可实时交互。模型分为三个分支:GWM Worlds 用于实时环境模...
阅读原文

DeepSearchQA

DeepSearchQA是谷歌开源的新基准测试工具,用于评估Agent在网络研究任务中的全面性和多步查询能力。工具包含17个领域共900个手工设计的“因果链”任务,每一步...
阅读原文

GLM-TTS

GLM-TTS 是智谱推出的基于多奖励强化学习的工业级语音合成系统,具备音色复刻、多情感表达、高精度文本理解和高质量语音输出等功能。
阅读原文

VoxCPM1.5

VoxCPM 1.5 是面壁智能推出的先进的端到端文本到语音(TTS)模型,专注于上下文感知的语音生成和逼真的声音克隆。模型通过端到端扩散自回归架构直接从文本生...
阅读原文

Qwen3-Omni-Flash

Qwen3-Omni-Flash(Qwen3-Omni-Flash-2025-12-01) 是阿里 Qwen 团队推出的全模态大模型。模型能无缝处理文本、图像、音频和视频等多种输入形式,实时生成高...
阅读原文

PosterCopilot

PosterCopilot 是南京大学联合 LibLib.ai 和中科院自动化所共同推出的专业级海报设计大模型。模型通过独特的三阶段训练策略,赋予模型强大的布局推理和精准编...
阅读原文

Mistral Vibe CLI

Mistral Vibe CLI 是Mistral AI 推出的开源命令行代码助手,能通过自然语言交互帮助开发者高效完成代码任务。Mistral Vibe CLI 能自动感知项目结构和 Git 状...
阅读原文

Devstral 2

Devstral 2 是 Mistral AI 推出的新一代开源编程模型系列,包含 123B 参数的 Devstral 2 和 24B 参数的 Devstral Small 2。Devstral 2 拥有 256K 上下文窗口...
阅读原文

GLM-ASR

GLM-ASR是智谱AI推出的系列语音识别模型,包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型,支持多场景、多语...
阅读原文

Open-AutoGLM

Open-AutoGLM 是智谱开源的手机端智能助理框架,基于 AutoGLM 构建,能通过自然语言指令实现手机操作的自动化。Open-AutoGLM通过 Phone Use 能力框架,将自然...
阅读原文

GLM-4.6V

GLM-4.6V 是智谱推出的多模态大模型,包含面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)和面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)。
阅读原文

LongCat-Image

LongCat-Image 是美团开源的高性能图像生成模型,仅用 6B 参数在文生图和图像编辑上达到开源顶尖水平。模型采用创新架构和训练策略,支持高质量中文文字渲染...
阅读原文
1910111213169