您的全天候心理健康伴侣
提供超逼真的交互式虚拟形象,用于变革数字互动体验。
Whisper Turbo 是一款免费在线快速准确的语音识别工具。
开源工业级自动语音识别模型,支持普通话、方言和英语,性能卓越。
一个提供语音克隆和AI语音内容创作的平台。
Scribe 是全球最准确的语音转文字模型,支持99种语言。
基于Llama框架的TTS基础模型,兼容16万小时标记化语音数据。
音刻转录是一款快速、精准、丝滑的音视频转录工具。
Sesame AI 是一款先进的语音合成平台,能够生成自然对话式语音并具备情感智能。
YuE是一个开源的音乐生成模型,能够将歌词转化为完整的歌曲。
CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。
这是一个基于Qwen2.5-32B模型的4位量化版本,专为高效推理和低资源部署设计。
DeepSeek-R1-Distill-Llama-8B 是一个高性能的开源语言模型,适用于文本生成和推理任务。
SigLIP2 是谷歌推出的一种多语言视觉语言编码器,用于零样本图像分类。
Aya Vision 32B 是一个支持多语言的视觉语言模型,适用于OCR、图像描述、视觉推理等多种用途。
与先进AI学习60种外语,跨越语言边界,提升口语能力。
基于LLM的文章翻译工具,自动翻译并创建多语言Markdown文件。
Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型,支持文本、图像和音频输入。
Phind是一款先进的人工智能搜索工具,支持多语言和多搜索功能。
8亿参数的多语言视觉语言模型,支持OCR、图像描述、视觉推理等功能
InternLM3 是一个专注于文本生成的模型集合,提供多种优化版本以满足不同需求。
Zonos-v0.1-hybrid 是一款领先的开源文本转语音模型,能够提供高质量的语音合成服务。
Gemini Embedding 是一种先进的文本嵌入模型,通过 Gemini API 提供强大的语言理解能力。
Zonos TTS 是一款支持多语言、情感控制和零样本文本到语音克隆的高质量 AI 文本转语音技术。
AI驱动的语言学习平台,让学习变得简单、有趣、个性化
使用AI一键生成演示文稿
AI驱动的PPT制作工具,快速创建和编辑演示文稿。
大规模多语言偏好混合数据集
多语言预训练数据集
商业领域基础模型与代理
一键将各种文本格式转换为自然发音的有声读物。
AI驱动的视频自动化生成平台