AI项目和框架

Eleven v3

Eleven v3是ElevenLabs推出的先进文本转语音模型。通过内联音频标签实现情感和语调的精确控制，支持多说话人对话，对话更自然。模型支持超70种语言，文本理解...

阅读原文

AI工具

1年前 (2025)

Qwen3 Reranker

Qwen3 Reranker是阿里巴巴通义千问团队发布的文本重排序模型，属于Qwen3模型家族。采用单塔交叉编码器架构，输入文本对后输出相关性得分。模型通过多阶段训练...

阅读原文

AI工具

1年前 (2025)

Qwen3 Embedding

Qwen3 Embedding 是基于 Qwen3 基础模型开发的文本表征、检索与排序专用模型。继承了 Qwen3 的先进架构，如 Grouped Query Attention、SwiGLU 激活函数等，通...

阅读原文

AI工具

1年前 (2025)

DecipherIt

DecipherIt是AI驱动的研究助手工具，基于智能化手段简化和优化研究过程。工具支持将各种主题、链接和文件转化为AI生成的研究笔记本，提供全面的总结、互动问...

阅读原文

AI工具

1年前 (2025)

Gemini Fullstack LangGraph Quickstart

Gemini Fullstack LangGraph Quickstart 是谷歌DeepMind推出的开源项目，帮助开发者快速搭建基于 Google Gemini 2.5 和 LangGraph 的全栈智能研究助手。

阅读原文

AI工具

1年前 (2025)

MoonCast

MoonCast 是零样本播客生成系统，从纯文本源合成自然的播客风格语音。通过长上下文语言模型和大规模语音数据训练，能生成几分钟长的播客音频，支持中文和英文。

阅读原文

AI工具

1年前 (2025)

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音（TTS）模型，基于超过200万小时的音频数据训练，支持13种语言。采用双自回归（Dual-AR）架构和强化学习与人类反馈...

阅读原文

AI工具

1年前 (2025)

PlayDiffusion

PlayDiffusion是PlayAI推出的新型音频编辑模型，基于扩散模型技术，专门用在音频的精细编辑和修复。模型将音频编码为离散的标记序列，对需要修改的部分进行掩...

AI工具

1年前 (2025)

Auto Think

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型，模型针对深度思考大模型存在的“过度思考”问题进行了深入研究，提出了一种...

阅读原文

AI工具

1年前 (2025)

Firesearch

Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术，结合 OpenAI GPT-4o 的搜索规划和内容生成能力，将复...

阅读原文

AI工具

1年前 (2025)

OCode

OCode 是终端原生 AI 编程助手，为开发者提供深度代码库智能和自动任务执行功能。与本地 Ollama 模型无缝集成，将企业级 AI 辅助直接融入开发流程中。终端原...

阅读原文

AI工具

1年前 (2025)

Jaaz

Jaaz 是开源的 AI 设计工具，是 Lovart 的本地免费替代品。具备强大的 AI 设计能力，能智能生成设计提示，批量生成图像、海报、故事板等。Jaaz 支持 Ollama、...

阅读原文

AI工具

1年前 (2025)

VRAG-RL

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，专注于提升视觉语言模型（VLMs）在处理视觉丰富信息时的检索、推理和理解能力。基...

阅读原文

AI工具

1年前 (2025)

TrackVLA

TrackVLA是银河通用推出的产品级端到端导航大模型。模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力，能实现从视觉感知到动作输出的全链路...

阅读原文

AI工具

1年前 (2025)

TEN VAD

TEN VAD 是高性能的实时语音活动检测系统，专为企业级应用设计。TEN VAD能精确地检测音频流中的语音活动，具有低延迟、轻量级和高精度的特点。TEN VAD 基于先...

阅读原文

AI工具

1年前 (2025)

1…73 747576 77…196