AI项目和框架 - 第 63 页

dots.vlm1

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型（LLM），具备强大的视觉感知...

阅读原文

AI工具

10个月前

gpt-oss

GPT-OSS 是 OpenAI 推出的开源推理模型系列，包含 gpt-oss-120b 和 gpt-oss-20b 两个版本。gpt-oss-120b 拥有1170亿参数，激活参数约51亿，能在单张 80GB GPU...

阅读原文

AI工具

10个月前

Genie 3

Genie 3是谷歌DeepMind推出的新一代通用世界模型，能实时生成高度动态且连贯的虚拟世界。模型具备模拟物理现象、自然生态系统、奇幻场景和历史场景的能力，支...

阅读原文

AI工具

10个月前

Claude Opus 4.1

Claude Opus 4.1 是 Anthropic 公司最新推出的大型语言模型，是 Claude Opus 4 的升级版本。模型在多个方面进行优化和提升，包括推理质量、指令遵循能力及整...

阅读原文

AI工具

10个月前

Chunkr

Chunkr 是 Lumina AI 推出的开源文档处理 API，专为 RAG（检索增强生成）和知识库场景设计。Chunkr 能将复杂文档（如 PDF、PPT、Word、图片等）转换为结构化...

阅读原文

AI工具

10个月前

AudioGen-Omni

AudioGen-Omni是快手推出的多模态音频生成框架，框架能基于视频、文本等输入生成高质量的音频、语音和歌曲。框架通过统一的歌词-文本编码器和相位对齐各向异...

阅读原文

AI工具

10个月前

LangExtract

LangExtract 是谷歌开源的用在从非结构化文本中提取结构化信息的 Python 库。LangExtract 用大型语言模型（LLM），自动处理临床笔记、报告等材料，识别并组织...

阅读原文

AI工具

10个月前

Qwen-Image

Qwen-Image 是阿里通义千问团队开源的 20B 参数MMDiT模型，是通义千问系列中首个图像生成基础模型，模型在复杂文本渲染和精确图像编辑方面表现出色，支持多行...

阅读原文

AI工具

10个月前

MiDashengLM

MiDashengLM是小米开源的高效声音理解大模型，具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建，...

阅读原文

AI工具

10个月前

RedOne

RedOne 是小红书推出的首个面向社交网络服务（SNS）领域的定制化大语言模型（LLM）。模型通过三阶段训练策略，注入社交文化知识，强化多任务能力，并对齐平台...

阅读原文

AI工具

10个月前

Windows-MCP

Windows-MCP 是轻量级、开源的 AI Agent与 Windows 系统集成工具。Windows-MCP作为 MCP 服务器，让大语言模型（LLM）能直接操作 Windows，实现文件浏览、应用...

阅读原文

AI工具

10个月前

Skywork MindLink

Skywork MindLink是昆仑万维推出开源的推理大模型。具有自适应推理机制，可根据任务复杂度灵活切换推理模式，简单任务快速生成，复杂任务深度推理，兼顾效率...

阅读原文

AI工具

10个月前

ScreenCoder

ScreenCoder 是开源的智能 UI 截图转代码系统，支持将任何设计截图快速转换为整洁、可编辑的 HTML/CSS 代码。ScreenCoder用模块化多智能体架构，结合视觉理解...

阅读原文

AI工具

10个月前

FastDeploy

FastDeploy 是百度基于飞桨（PaddlePaddle）框架开发的高性能推理与部署工具，专为大语言模型（LLMs）和视觉语言模型（VLMs）设计。FastDeploy 支持多种硬件...

阅读原文

AI工具

10个月前

DragonV2.1

DragonV2.1（DragonV2.1Neural）是微软推出的最新零样本文本到语音（TTS）模型。模型基于 Transformer 架构，支持多语言和零样本语音克隆，仅需 5-90 秒的语...

阅读原文

AI工具

10个月前