AI项目和框架
Fun-CosyVoice3.5
Fun-CosyVoice3.5 是阿里通义实验室语音团队最新发布的语音生成模型,主打多语种音色复刻与精细化表达控制。模型最突出的创新在于FreeStyle自然语言控制能力—...
FireRed-OCR
FireRed-OCR 是小红书团队开源的轻量级文档结构解析视觉语言模型,以仅 2B 参数的规模在 OmniDocBench v1.5 权威评测中斩获 92.94% 综合得分,超越 GPT-5.2、...
Fun-AudioGen-VD
Fun-AudioGen-VD 是阿里通义实验室语音团队推出的创新语音大模型,定位为面向"声音设计与场景化音频生成"的专业工具。模型支持"FreeStyle&quo...
OpenSandbox
OpenSandbox 是阿里巴巴开源的通用 AI 应用沙箱平台,采用 Apache 2.0 协议,专为安全执行 AI 生成代码和自动化任务而设计。提供多语言 SDK(Python、Java/Ko...
pplx-embed
pplx-embed 是 Perplexity 推出的系列文本嵌入模型,包含标准检索的 pplx-embed-v1 和上下文感知的 pplx-embed-context-v1,均提供 0.6B 和 4B 两种规模。
SkyReels V4
SkyReels V4是昆仑万维推出的视频基础模型,是全球首个支持多模态输入、联合音视频生成及统一生成/修复/编辑的AI视频模型。模型采用双流MMDiT架构,可生成108...
LocoOperator-4B
LocoOperator-4B 是 LocoreMind 开源的 4B 参数代码探索智能体,基于 Qwen3-4B-Instruct 通过知识蒸馏从 Qwen3-Coder-Next 训练而来。模型定位为 Claude Code...
Ctrl-World
Ctrl-World 是清华陈建宇与斯坦福 Chelsea Finn 团队联合推出的具身世界模型,在 WorldArena 权威评测中斩获具身任务能力全球第一、视频生成质量全球第二。
粤公网安备 44011502001135号