AI项目和框架 - 第 15 页

HappyOyster

HappyOyster是阿里ATH创新事业部推出的开放式世界模型产品，定位为可实时构建与交互的AI生成式体验平台。产品基于世界模型技术，支持无限延展的实时内容生成...

阅读原文

AI工具

2个月前

StepAudio 2.5 TTS

StepAudio 2.5 TTS是阶跃星辰推出的Contextual TTS（语境感知语音合成模型），首次将语境理解能力引入语音生成全流程。

阅读原文

AI工具

2个月前

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS是Google推出的新一代文本转语音模型，提供更强的可控性、表现力和音质。模型支持70多种语言，引入音频标签技术，可通过自然语言指令精...

阅读原文

AI工具

2个月前

混元3D世界模型 2.0

混元3D世界模型 2.0（HY-World 2.0）是腾讯混元推出的开源多模态世界模型，支持从文本、单图、多视图或视频生成可漫游的3D高斯溅射（3DGS）场景。模型采用四...

阅读原文

AI工具

2个月前

Relax

Relax 是小红书AI平台团队开源的面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。基于 Megatron-LM 与 SGLang 构建，采用服务化容错架构（Ray Serve...

阅读原文

AI工具

2个月前

Marble 1.1

Marble 1.1 是李飞飞 World Labs 推出的新一代生成式世界模型，主打画质优化。模型能将单张图片、视频或全景图转化为可自由探索的沉浸式 3D 场景，显著改善光...

阅读原文

AI工具

2个月前

MAI-Image-2-Efficient

MAI-Image-2-Efficient是微软推出的自研文生图模型，为MAI-Image-2的轻量高效版本，主打高性价比商业量产，在保持照片级真实图像质量的同时，实现成本降低41%...

阅读原文

AI工具

2个月前

SearchClaw

SearchClaw 是 RUC-NLPIR（中国人民大学信息检索实验室）推出的自托管式 AI 深度研究智能体，配备 Web 交互界面。用户提交问题后，系统自动执行多轮网络搜索...

阅读原文

AI工具

2个月前

Spark 2.0

Spark 2.0是World Labs（李飞飞创立）开源的Web端3D高斯溅射渲染引擎，基于Three.js和WebGL2构建。Spark 2.0首创LoD细节层次系统、渐进式流式传输与虚拟内存...

阅读原文

AI工具

2个月前

ERNIE-Image

ERNIE-Image是百度文心团队开源的8B参数文生图模型，基于Diffusion Transformer架构，主打高可控性与精准长文本渲染。

阅读原文

AI工具

2个月前

OmniShow

OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V（参考图+音频+姿势）的端到端框架，模型统一处理文本、...

阅读原文

AI工具

2个月前

Mano-P 1.0

Mano-P 1.0是明略科技开源的GUI-VLA智能体模型，采用纯视觉驱动，无需API可直接操控桌面软件与网页界面。模型提供72B完整版与4B量化版，支持Apple M4芯片本地...

阅读原文

AI工具

2个月前

HeyGen CLI

HeyGen CLI是HeyGen官方推出的命令行工具与MCP服务器，基于Model Context Protocol协议构建。工具支持开发者及AI助手（如Claude、Cursor）通过自然语言直接调...

阅读原文

AI工具

2个月前

PokeClaw

PokeClaw（全称 PocketClaw）是开源 Android AI 自动化应用，由开发者 Nicole 独立打造。是首个实现完全本地离线运行的手机 AI 代理，基于 Google Gemma 4 模...

阅读原文

AI工具

2个月前

LPM 1.0

LPM 1.0（Large Performance Model）是Anuttacon（蔡浩宇AI公司）推出的17B参数视频角色表演生成模型，支持实时全双工音视频对话。

阅读原文

AI工具

2个月前