标签:语音识别

Wan

Wan是阿里推出的AI创意平台,平台搭载Wan2.1模型生成能力,专注于AI绘画和AI视频创作。AI绘画基于文字描述,快速生成具有艺术感的图像。AI视频支持将文本和图...
阅读原文

TicVoice 7.0

TicVoice 7.0 是出门问问推出的第七代高品质 TTS(语音合成)引擎,基于新一代语音生成模型 Spark-TTS 。TicVoice 7.0基于创新的 BiCodec 编码方式,将语音分...
阅读原文

GEN3C

GEN3C 是NVIDIA、多伦多大学和向量研究所推出的新型生成式视频模型,基于精确的相机控制和时空一致性生成高质量的 3D 视频内容。GEN3C构建基于点云的 3D 缓存...
阅读原文

WhisperChain

WhisperChain 是开源的语音识别工具,基于语音输入提升工作效率。WhisperChain用 Whisper.cpp 实现实时语音识别,将语音转换为文本,基于 LangChain 对文本进...
阅读原文

Baichuan-Audio

Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码...
阅读原文

TinyR1-Preview

TinyR1-Preview是北京大学计算机学院与360公司联合推出的32B参数量的推理模型。模型仅用5%的参数量,逼近Deepseek-R1-671B的性能,TinyR1-Preview在数学领域...
阅读原文

TANGLED

TANGLED是上海科技大学、Deemos Technology和华中科技大学联合推出的3D发型生成方法,支持从任意风格和视角的图像中生成高质量的3D发丝。TANGLED基于三个核心...
阅读原文

Ovis2

Ovis2 是阿里巴巴国际团队推出的新型多模态大语言模型,基于结构化嵌入对齐解决视觉与文本模态间的差异。Ovis2继承、优化了 Ovis 系列架构,强化小规模模型的...
阅读原文

交小智

交小智是西安交通大学推出的基于大语言模型技术的AI应用创建平台,为全校师生提供低代码、低门槛的智能体(Agent)创建与管理服务。通过平台,用户无需编程基...
阅读原文

好伴AI

好伴AI是杭州智诊科技推出的医疗健康智能助手应用,专注于为用户提供专业、便捷的健康咨询和医疗建议。基于全科医学通用大语言模型WiseDiag-Z1,能24小时在线...
阅读原文

华为小艺

华为小艺是华为推出的小艺AI助手网页端,用户可以通过浏览器直接访问使用。适配了手机和PC布局,提供多种功能,包括AI问答、AI写作、编程助手和AI翻译等。小...
阅读原文

Hibiki

Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型,能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模型架构,同步处理源语...
阅读原文

AstrBot

AstrBot 是多平台聊天机器人及开发框架,支持多种大语言模型(如 OpenAI GPT、Google Gemini、Llama 等)和多种消息平台(如 QQ、Telegram、微信等)。AstrBo...
阅读原文

LIMO

LIMO(Less Is More for Reasoning)是上海交通大学研究团队提出的高效推理方法,通过极少量高质量的训练样本激活大语言模型(LLM)的复杂推理能力。核心假设...
阅读原文
12312