AI项目和框架

Fun-CosyVoice3.5

Fun-CosyVoice3.5 是阿里通义实验室语音团队最新发布的语音生成模型,主打多语种音色复刻与精细化表达控制。模型最突出的创新在于FreeStyle自然语言控制能力—...
阅读原文

FireRed-OCR

FireRed-OCR 是小红书团队开源的轻量级文档结构解析视觉语言模型,以仅 2B 参数的规模在 OmniDocBench v1.5 权威评测中斩获 92.94% 综合得分,超越 GPT-5.2、...
阅读原文

Fun-AudioGen-VD

Fun-AudioGen-VD 是阿里通义实验室语音团队推出的创新语音大模型,定位为面向"声音设计与场景化音频生成"的专业工具。模型支持"FreeStyle&quo...
阅读原文

Goose

Goose 是 Block 开源的本地 AI Agent 框架,能自主执行完整工程任务——读文件、写代码、跑测试、调 API、自动 Debug,出错后自我修正直至完成。
阅读原文

DataClaw

DataClaw 是开发者Peter O'Malle开源的AI对话数据导出工具。能自动抓取用户与Claude Code、Codex CLI、Gemini CLI等AI编程助手的完整对话历史,将其转换...
阅读原文

OpenSandbox

OpenSandbox 是阿里巴巴开源的通用 AI 应用沙箱平台,采用 Apache 2.0 协议,专为安全执行 AI 生成代码和自动化任务而设计。提供多语言 SDK(Python、Java/Ko...
阅读原文

TinyClaw

TinyClaw 是 TinyAGI 开源的轻量级多智能体协作框架,专为资源受限环境设计。TinyClaw支持在树莓派等设备上同时运行多个专业 AI Agent(如 @coder、@writer)...
阅读原文

OpenFang

OpenFang 是用 Rust 构建的开源 Agent 操作系统,核心创新是 Hands——7 个预置的自主能力包,让 AI 无需人工触发可 7×24 小时自动执行任务(如监控竞品、挖掘...
阅读原文

AngelSlim

AngelSlim 是腾讯混元团队自研并开源的全模态大模型压缩工具包,通过量化、投机采样、稀疏化和蒸馏等技术,为大语言模型(LLM)、视觉语言模型(VLM)及语音...
阅读原文

Arrow 1.0

Arrow 1.0 是 Quiver AI 推出全球首款 SVG 原生 AI 生成模型。与传统像素生成模型不同,模型能直接输出可缩放矢量图形代码,图像基于数学公式构建,支持无限...
阅读原文

pplx-embed

pplx-embed 是 Perplexity 推出的系列文本嵌入模型,包含标准检索的 pplx-embed-v1 和上下文感知的 pplx-embed-context-v1,均提供 0.6B 和 4B 两种规模。
阅读原文

SkyReels V4

SkyReels V4是昆仑万维推出的视频基础模型,是全球首个支持多模态输入、联合音视频生成及统一生成/修复/编辑的AI视频模型。模型采用双流MMDiT架构,可生成108...
阅读原文

LocoOperator-4B

LocoOperator-4B 是 LocoreMind 开源的 4B 参数代码探索智能体,基于 Qwen3-4B-Instruct 通过知识蒸馏从 Qwen3-Coder-Next 训练而来。模型定位为 Claude Code...
阅读原文

Ctrl-World

Ctrl-World 是清华陈建宇与斯坦福 Chelsea Finn 团队联合推出的具身世界模型,在 WorldArena 权威评测中斩获具身任务能力全球第一、视频生成质量全球第二。
阅读原文

Talksign-1

Talksign-1是专为美式手语(ASL)设计的AI实时翻译模型,支持双向转换,能通过摄像头捕捉3D人体关键点识别250个ASL词汇,或将语音/文字转为手语视频。
阅读原文
123174