标签:语音识别

RTranslator

RTranslator 是一款开源、免费、离线实时翻译应用程序,专为 Android 设备设计。基于先进的AI技术,包括 Meta 的 NLLB 翻译模型和 OpenAI 的 Whisper 语音识...
阅读原文

RD-Agent

RD-Agent是一个开源的自动化研究与开发(R&D)工具,由微软亚洲研究院推出。基于AI技术推动数据驱动的AI研发过程,专注于简化模型和数据的开发。RD-Agent...
阅读原文

VideoLingo

VideoLingo 是一款一键全自动视频翻译工具,能将视频进行字幕切割、翻译、对齐和配音,最终生成 Netflix 级别的字幕和配音。VideoLingo 基于自然语言处理(NL...
阅读原文

TinyVLA

TinyVLA是一种面向机器人操控的视觉-语言-动作(VLA)模型,由华东师范大学和上海大学团队推出。针对现有VLA模型的不足,如推理速度慢和需要大量数据预训练,...
阅读原文

Reverb ASR

Reverb ASR是Rev公司推出的开源自动语音识别和说话人分离模型,基于20万小时的人工转录英语数据训练而成。模型在长语音识别领域表现卓越,适合处理如播客和财...
阅读原文

Loong

Loong是由香港大学和字节跳动联合推出的一种新型长视频生成模型,能生成外观一致、动态丰富、场景过渡自然的分钟级长视频。模型基于自回归大型语言模型(LLM...
阅读原文

Agent-S

Agent-S 是创新的代理框架,旨在基于图形用户界面(GUI)实现人机交互的自动化。Agent-S 基于模拟人类的操作方式,用鼠标和键盘直接与计算机交互,处理复杂的...
阅读原文

AsrTools

AsrTools是一款高效的智能语音转文字工具,能将音频文件快速转换成精确的文字内容。工具的优势在于无需复杂的配置,直接调用大厂的ASR接口,无需GPU支持,用...
阅读原文

Langotalk

Langotalk是一个创新的在线语言学习平台,基于AI技术为语言学习者提供个性化和沉浸式的学习体验。平台支持20多种语言,如英语、西班牙语、法语、德语、意大利...
阅读原文

FunASR

FunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR...
阅读原文

TANGO

TANGO 是一个由东京大学和 CyberAgent AI Lab 共同推出的开源框架,专注于生成与目标语音同步的全身手势视频。基于分层音频运动嵌入和扩散插值网络,将目标语...
阅读原文

Lingua

Lingua 是 Meta AI推出的一个轻量级且独立的代码库,旨在助力大规模训练语言模型。基于易于修改的 PyTorch 组件,便于研究人员尝试新的模型架构、损失函数和...
阅读原文

有挂

有挂是一款创新的浏览器AI插件,基于自然语言处理技术,使用户用简单的命令或对话修改网页内容,无需任何编程知识。插件支持Chrome、Edge和Arc浏览器,具备个...
阅读原文

麦芽岛

麦芽岛是由科大讯飞推出的一款AI虚拟角色互动聊天应用。用户可以创建和自定义虚拟角色,与之进行沉浸式对话,模拟情感陪伴和剧情互动。用户可以设定角色的外...
阅读原文

Act-One

Act-One 是 Runway推出的AI生成式角色表演工具,基于简单的视频输入生成富有表现力的角色表演。工具用生成式模型,将演员的现场表演转化为3D模型,适于动画流...
阅读原文
11112131415