AI项目和框架
RealtimeSTT
RealtimeSTT是开源的实时语音转文本库,专为低延迟应用设计。有强大的语音活动检测功能,可自动识别说话的开始与结束,通过WebRTCVAD和SileroVAD进行精准检测...
Step R-mini
Step R-mini(全称Step Reasoner mini)是阶跃星辰推出的推理模型, 是 Step 系列模型家族的首个推理模型,擅长主动规划、尝试和反思,基于慢思考和反复验证...
GLM-Realtime
GLM-Realtime是智谱推出的全新端到端多模态模型,具备低延迟的视频理解与语音交互能力,特别融入清唱功能,让大模型在对话中能展现歌唱才能。模型支持长达2分...
CogView-3-Flash
CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,能根据文本描述生成高审美分数的图像,支持多种分辨率,满足专业领域需求。模型具备创意多样性,基于...
Kokoro-TTS
Kokoro-TTS 是 hexgrad 开发的轻量级文本转语音(TTS)模型,具有 8200 万参数。基于 StyleTTS 2 和 ISTFTNet 的混合架构,采用纯解码器设计,不使用扩散模型...
MiniMax-01
MiniMax-01是MiniMax推出的全新系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax-01首次大规模实现线性注意力机制,打...
moonshot-v1-vision-preview
moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,模型完善了 moonshot-v1 模型系列的多模态能力,具备强大的图像识别能力,能精准区分复杂...
MiniCPM-o 2.6
MiniCPM-o 2.6 是MiniCPM-o 系列最新、性能最佳的多模态大模型,具有 8B 参数量。MiniCPM-o 2.6在视觉、语音和多模态直播等多个领域表现出色,达到与 GPT-4o ...