AI项目和框架 - 第 44 页

文心 5.0 Preview

文心 5.0 Preview （ERNIE-5.0-Preview）是百度最新推出的人工智能大语言模型。模型在 LMArena 文本竞技场（Text Arena）排名中位居全球并列第二、国内第一，...

阅读原文

AI工具

7个月前

Maya1

Maya1 是 Maya Research 团队推出的开源语音模型，专为生成富有情感的语音而设计。模型通过自然语言描述来设计声音，支持 20 多种情绪表达，如大笑、哭泣、叹...

阅读原文

AI工具

7个月前

Step-Audio-EditX

Step-Audio-EditX 是阶跃星辰开源的全球首个 LLM 级音频编辑大模型，主打“情感、说话风格、副语言”三轴细粒度迭代控制，可把愤怒、开心、悲伤等情绪强度任意...

阅读原文

AI工具

7个月前

Kimi-k2 Thinking

Kimi-k2 Thinking 是月之暗面推出的具备通用 Agentic 能力和深度推理能力的人工智能模型。模型能进行多轮工具调用，支持长达 256k 的上下文处理，适合复杂任...

阅读原文

AI工具

7个月前

Open-o3 Video

Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型，通过整合显式的时空证据（关键时间戳和边界框）来实现精准的视频推理。通过精心策划的 STGR...

阅读原文

AI工具

7个月前

OmniVinci

OmniVinci是NVIDIA推出的全模态大语言模型，专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐，Temporal Embeddi...

阅读原文

AI工具

7个月前

UNO-Bench

UNO-Bench是美团LongCat团队推出的全模态大模型评测基准。UNO-Bench针对现有评测体系的不足，通过高质量、多样化的数据构建，精准衡量模型的单模态与全模态能...

阅读原文

AI工具

7个月前

Kosmos

Kosmos 是新一代 AI 科学家，由 FutureHouse 推出的自动化科研系统 Robin 升级而来。Kosmos采用结构化世界模型，能高效整合海量信息，单次运行可解析 1500 篇...

阅读原文

AI工具

7个月前

UniWorld V2

UniWorld V2是兔展智能和北京大学UniWorld团队推出的新一代图像编辑模型。采用创新的UniWorld-R1训练框架，首次将强化学习策略优化应用于图像编辑，通过Diffu...

阅读原文

AI工具

7个月前

讯飞星火X1.5

讯飞星火X1.5 是科大讯飞推出的基于全国产算力平台的深度推理大模型。模型率先攻克 MoE 模型全链路训练效率问题，端到端性能达到国际竞品效率的 93% 以上。模...

阅读原文

AI工具

7个月前

Handy

Handy 是开源的语音转文字桌面应用，完全离线运行，支持 Windows、macOS 和 Linux 系统。由 Rust 和 React/TypeScript 构建，界面简洁，操作便捷。用户通过快...

阅读原文

AI工具

7个月前

FG-CLIP 2

FG-CLIP 2是360推出的开源双语细粒度视觉语言对齐模型，专为解决视觉与语言的精准对齐问题而设计。在视觉语言理解领域取得了重大突破，尤其在中英文双语任务...

阅读原文

AI工具

7个月前

NavFoM

NavFoM（Navigation Foundation Model）是银河通用联合北京大学、阿德莱德大学、浙江大学等团队发布的全球首个跨本体全域环视导航基座大模型。具备全场景支持...

阅读原文

AI工具

7个月前

SAIL-Embedding

SAIL-Embedding是字节跳动抖音SAIL团队和香港中文大学MMLab联合开发的全模态（omni-modal）嵌入基础模型。解决多模态信息检索和推荐系统中的实际应用问题，通...

阅读原文

AI工具

7个月前

Open AgentKit

Open AgentKit（OAK）是零一万物开源的AI Agent开发平台，能为开发者提供开放、通用的Agent开发解决方案。平台受OpenAI AgentKit启发，支持多种模型和生态系...

阅读原文

AI工具

7个月前