标签:多语言支持

VASA-1

VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的3D说话面部动画。
阅读原文

Phi-3

Phi-3是微软研究院推出的新一代系列先进的小语言模型,包括phi-3-mini、phi-3-small和phi-3-medium三个不同规模的版本。这些模型在保持较小的参数规模的同时...
阅读原文

商量拟人大模型

商量拟人大模型“SenseChat-Character”是商汤科技推出的一款人工智能虚拟角色对话系统,专注于提供个性化角色创建、定制和对话服务。
阅读原文

OpenELM

OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本。该大模型利用层...
阅读原文

PuLID

PuLID是字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。
阅读原文

GPT-4o

GPT-4o是OpenAI最新推出的一款先进的人工智能模型,具备强大的多模态推理能力,能够处理语音、文本和视觉信息。该模型能够实时响应用户输入,并且在音频交互...
阅读原文

Universal-1

Universal-1是AI语音初创公司AssemblyAI推出的一款多语言语音识别和转录模型,经过超过1250万小时的多语种音频数据训练,支持英语、西班牙语、法语和德语等。
阅读原文

Stable Assistant

Stable Assistant是由Stability AI开发的一款聊天机器人,集成了最新的文本和图像生成技术(Stable Diffusion 3和Stable LM 2 12B )。该AI对话工具能够理解...
阅读原文

ChatTTS

ChatTTS是一款专为对话场景设计的支持中英文的文本转语音(TTS)模型,基于约10万小时的中英文数据进行训练,能够生成高质量、自然流畅的对话语音。
阅读原文

Seed-TTS

Seed-TTS是由字节跳动开发的一系列高级文本到语音(Text to Speech,TTS)模型,能够生成与人类语音极为相似的高质量语音,具备出色的上下文学习能力和自然度。
阅读原文

Gen-3 Alpha

Gen-3 Alpha是由AI视频初创公司Runway最新发布的新一代AI视频生成模型,通过大规模多模态训练基础设施,显著提升了视频的保真度、一致性和动态表现。该模型能...
阅读原文

Toucan TTS

Toucan TTS是由德国斯图加特大学自然语言处理研究所(IMS)开发的文本到语音合成工具箱,支持超过7000种语言,包括多种方言和变体,提供多说话人语音合成、语...
阅读原文

ElevenLabs Reader App

ElevenLabs Reader App是由AI语音初创公司ElevenLabs推出的一款文本转语音应用,利用AI技术将各类文本内容,如文章、PDF文件、ePub等,转化为自然流畅、高音...
阅读原文

豆包MarsCode

豆包MarsCode是字节跳动旗下的公司推出的一个免费AI编程工具,既提供一个AI驱动的云端集成开发环境(IDE),也支持作为VS Code和JetBrains的智能编程扩展(Ex...
阅读原文

Gemma 2

Gemma 2是谷歌DeepMind推出的新一代开源人工智能模型,包含90亿和270亿参数版本。该模型以卓越的性能、高效的推理速度和广泛的硬件兼容性为特点,能够与参数...
阅读原文
1202122232443