智能语音识别 - 第 2 页

BabelDOC

BabelDOC 是开源的智能 PDF 翻译工具，专为科学论文翻译设计。能在原文旁生成翻译文本，形成双语对照，无需切换窗口，方便阅读。能完整保留数学公式、表格和...

AI工具

1年前 (2025)

Dolphin

Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别，中文语种涵盖22种方言（含...

阅读原文

AI工具

1年前 (2025)

AI速搭

AI速搭是百度智能云推出的低代码开发平台，帮助企业快速搭建和部署智能应用。基于AI技术的能力，用户可以通过可视化界面进行操作，无需编写大量代码，可快速...

阅读原文

AI工具

1年前 (2025)

OLMo 2 32B

OLMo 2 32B 是 Allen Institute for AI（Ai2）推出的最新开源语言模型，是 OLMo 2 系列的重要成果。拥有 320 亿参数，是首个在多技能学术基准测试中超越 GPT-...

阅读原文

AI工具

1年前 (2025)

Chirp 3

Chirp 3 是谷歌云推出的高清语音合成模型，专为生成自然、生动的语音而设计。支持 248 种声音和 31 种语言，能捕捉人类语调的细微差别，语音输出更加贴近真实...

阅读原文

AI工具

1年前 (2025)

PySpur

PySpur 是开源的轻量级可视化 AI 智能体工作流构建器，简化 AI 系统的开发流程。基于拖拽式界面让用户能快速构建、测试和迭代 AI 工作流，无需编写复杂代码。...

阅读原文

AI工具

1年前 (2025)

X-R1

X-R1是基于强化学习的低成本训练框架，能加速大规模语言模型的后训练（Scaling Post-Training）开发。X-R1用极低的成本训练0.5B（5亿参数）规模的R1-Zero模型...

阅读原文

AI工具

1年前 (2025)

ACE++

ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具，通过指令化和上下文感知的内容填充技术，实现了高质量的图像创作和编辑功能。

阅读原文

AI工具

1年前 (2025)

MVoT

MVoT（Multimodal Visualization-of-Thought）是微软研究院、剑桥大学语言技术实验室、中国科学院自动化研究所推出的新型多模态推理范式，基于生成图像可视化...

阅读原文

AI工具

1年前 (2025)

播记

播记是专为播客创作者设计的智能节目笔记（Shownotes）生成工具。通过AI技术，能快速提取播客音频中的关键信息，自动生成包含节目主题、嘉宾介绍、重要观点、...

阅读原文

AI工具

1年前 (2025)

SynCD

SynCD（Synthetic Customization Dataset）是卡内基梅隆大学和Meta推出的高质量合成训练数据集，用在提升文本到图像模型的定制化能力。SynCD包含多个相同对象...

阅读原文

AI工具

1年前 (2025)

Sky-T1

Sky-T1是加州大学伯克利分校Sky Computing实验室的研究团队NovaSky发布的开源推理AI模型，名为Sky-T1-32B-Preview。是首个开源推理模型，训练数据集和代码均...

阅读原文

AI工具

1年前 (2025)

豆包向量化API

豆包向量化API是由字节跳动研发的语义向量化模型，名为Doubao-embedding，主要面向向量检索的使用场景，支持中、英双语，能处理最长4K的上下文长度。

阅读原文

AI工具

1年前 (2025)

Hi.AI

Hi.AI 是 AI 聊天应用，用户能创建具有独特个性的数字朋友，与各种 AI 角色进行沉浸式聊天。用户可以与名人、虚构人物或历史人物的 AI 版本就任何话题展开对...

阅读原文

AI工具

1年前 (2025)

Ingredients

Ingredients是强大的框架，基于将多个特定身份（ID）照片与视频扩散Transformer相结合，用在定制视频创作。Ingredients基于三个核心模块实现高度定制化的视频...

阅读原文

AI工具

1年前 (2025)

标签：智能语音识别