标签：语音识别

Oryx

Oryx是由清华大学、腾讯和南洋理工大学联合推出的多模态大型语言模型（MLLM），基于两项核心创新来处理视觉数据，预训练的OryxViT模型和动态压缩模块。OryxVi...

阅读原文

AI工具

2年前 (2024)

AMD-135M

AMD-135M是AMD推出的首款小型语言模型（SLM），为特定用例提供性能与资源消耗之间的平衡。基于LLaMA2模型架构，在AMD Instinct MI250加速器上训练，基于670亿...

阅读原文

AI工具

2年前 (2024)

RTranslator

RTranslator 是一款开源、免费、离线实时翻译应用程序，专为 Android 设备设计。基于先进的AI技术，包括 Meta 的 NLLB 翻译模型和 OpenAI 的 Whisper 语音识...

阅读原文

AI工具

2年前 (2024)

RD-Agent

RD-Agent是一个开源的自动化研究与开发（R&D）工具，由微软亚洲研究院推出。基于AI技术推动数据驱动的AI研发过程，专注于简化模型和数据的开发。RD-Agent...

阅读原文

AI工具

2年前 (2024)

VideoLingo

VideoLingo 是一款一键全自动视频翻译工具，能将视频进行字幕切割、翻译、对齐和配音，最终生成 Netflix 级别的字幕和配音。VideoLingo 基于自然语言处理（NL...

阅读原文

AI工具

2年前 (2024)

TinyVLA

TinyVLA是一种面向机器人操控的视觉-语言-动作（VLA）模型，由华东师范大学和上海大学团队推出。针对现有VLA模型的不足，如推理速度慢和需要大量数据预训练，...

阅读原文

AI工具

2年前 (2024)

Reverb ASR

Reverb ASR是Rev公司推出的开源自动语音识别和说话人分离模型，基于20万小时的人工转录英语数据训练而成。模型在长语音识别领域表现卓越，适合处理如播客和财...

阅读原文

AI工具

2年前 (2024)

Loong

Loong是由香港大学和字节跳动联合推出的一种新型长视频生成模型，能生成外观一致、动态丰富、场景过渡自然的分钟级长视频。模型基于自回归大型语言模型（LLM...

阅读原文

AI工具

2年前 (2024)

Agent-S

Agent-S 是创新的代理框架，旨在基于图形用户界面（GUI）实现人机交互的自动化。Agent-S 基于模拟人类的操作方式，用鼠标和键盘直接与计算机交互，处理复杂的...

阅读原文

AI工具

2年前 (2024)

AsrTools

AsrTools是一款高效的智能语音转文字工具，能将音频文件快速转换成精确的文字内容。工具的优势在于无需复杂的配置，直接调用大厂的ASR接口，无需GPU支持，用...

阅读原文

AI工具

2年前 (2024)

Langotalk

Langotalk是一个创新的在线语言学习平台，基于AI技术为语言学习者提供个性化和沉浸式的学习体验。平台支持20多种语言，如英语、西班牙语、法语、德语、意大利...

阅读原文

AI工具

2年前 (2024)

FunASR

FunASR是由阿里巴巴达摩院开源的语音识别工具包，提供包括语音识别（ASR）、语音活动检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR...

阅读原文

AI工具

2年前 (2024)

TANGO

TANGO 是一个由东京大学和 CyberAgent AI Lab 共同推出的开源框架，专注于生成与目标语音同步的全身手势视频。基于分层音频运动嵌入和扩散插值网络，将目标语...

阅读原文

AI工具

2年前 (2024)

Lingua

Lingua 是 Meta AI推出的一个轻量级且独立的代码库，旨在助力大规模训练语言模型。基于易于修改的 PyTorch 组件，便于研究人员尝试新的模型架构、损失函数和...

阅读原文

AI工具

2年前 (2024)

有挂

有挂是一款创新的浏览器AI插件，基于自然语言处理技术，使用户用简单的命令或对话修改网页内容，无需任何编程知识。插件支持Chrome、Edge和Arc浏览器，具备个...

阅读原文

AI工具

2年前 (2024)

1…11 121314 15