标签:智能语音识别

Dolphin

Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言(含...
阅读原文

AI速搭

AI速搭是百度智能云推出的低代码开发平台,帮助企业快速搭建和部署智能应用。基于AI技术的能力,用户可以通过可视化界面进行操作,无需编写大量代码,可快速...
阅读原文

OLMo 2 32B

OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新开源语言模型,是 OLMo 2 系列的重要成果。拥有 320 亿参数,是首个在多技能学术基准测试中超越 GPT-...
阅读原文

Chirp 3

Chirp 3 是谷歌云推出的高清语音合成模型,专为生成自然、生动的语音而设计。支持 248 种声音和 31 种语言,能捕捉人类语调的细微差别,语音输出更加贴近真实...
阅读原文

PySpur

PySpur 是开源的轻量级可视化 AI 智能体工作流构建器,简化 AI 系统的开发流程。基于拖拽式界面让用户能快速构建、测试和迭代 AI 工作流,无需编写复杂代码。...
阅读原文

X-R1

X-R1是基于强化学习的低成本训练框架,能加速大规模语言模型的后训练(Scaling Post-Training)开发。X-R1用极低的成本训练0.5B(5亿参数)规模的R1-Zero模型...
阅读原文

ACE++

ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具,通过指令化和上下文感知的内容填充技术,实现了高质量的图像创作和编辑功能。
阅读原文

MVoT

MVoT(Multimodal Visualization-of-Thought)是微软研究院、剑桥大学语言技术实验室、中国科学院自动化研究所推出的新型多模态推理范式,基于生成图像可视化...
阅读原文

播记

播记是专为播客创作者设计的智能节目笔记(Shownotes)生成工具。通过AI技术,能快速提取播客音频中的关键信息,自动生成包含节目主题、嘉宾介绍、重要观点、...
阅读原文

SynCD

SynCD(Synthetic Customization Dataset)是卡内基梅隆大学和Meta推出的高质量合成训练数据集,用在提升文本到图像模型的定制化能力。SynCD包含多个相同对象...
阅读原文

Sky-T1

Sky-T1是加州大学伯克利分校Sky Computing实验室的研究团队NovaSky发布的开源推理AI模型,名为Sky-T1-32B-Preview。是首个开源推理模型,训练数据集和代码均...
阅读原文

豆包向量化API

豆包向量化API是由字节跳动研发的语义向量化模型,名为Doubao-embedding,主要面向向量检索的使用场景,支持中、英双语,能处理最长4K的上下文长度。
阅读原文

Hi.AI

Hi.AI 是 AI 聊天应用,用户能创建具有独特个性的数字朋友,与各种 AI 角色进行沉浸式聊天。用户可以与名人、虚构人物或历史人物的 AI 版本就任何话题展开对...
阅读原文

Ingredients

Ingredients是强大的框架,基于将多个特定身份(ID)照片与视频扩散Transformer相结合,用在定制视频创作。Ingredients基于三个核心模块实现高度定制化的视频...
阅读原文

Fineshare VoiceTrans

Fineshare VoiceTrans 是实时 AI 变声器,能轻松改变自己的声音,适应不同的场景和需求。Fineshare VoiceTrans 提供多种功能,包括真实的 AI 变声、零延迟的...
阅读原文