标签:多语言支持

Champ

Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同提出的一种基于3D的将人物图片转换为视频动画的模型,该方法结合了3D参数化模型(特别是SMPL模型)和潜...
阅读原文

DreaMoving

DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团的研究团队开发。DreaMoving通过视频控制网络和内容引导器实现对人物动作和外观的精确控制...
阅读原文

CodeGemma

CodeGemma是由Google发布的专注于代码生成和理解的大型语言模型,该系列包含三种不同规模的模型,分别是2B预训练模型、7B预训练模型和7B指令微调模型,旨在提...
阅读原文

Parler-TTS

Parler-TTS是由Hugging Face推出的一款开源的文本到语音(TTS)模型,能够通过输入提示描述模仿特定说话者的风格(性别、音调、说话风格等),生成高质量、听...
阅读原文

VASA-1

VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的3D说话面部动画。
阅读原文

Phi-3

Phi-3是微软研究院推出的新一代系列先进的小语言模型,包括phi-3-mini、phi-3-small和phi-3-medium三个不同规模的版本。这些模型在保持较小的参数规模的同时...
阅读原文

商量拟人大模型

商量拟人大模型“SenseChat-Character”是商汤科技推出的一款人工智能虚拟角色对话系统,专注于提供个性化角色创建、定制和对话服务。
阅读原文

OpenELM

OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本。该大模型利用层...
阅读原文

PuLID

PuLID是字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。
阅读原文

GPT-4o

GPT-4o是OpenAI最新推出的一款先进的人工智能模型,具备强大的多模态推理能力,能够处理语音、文本和视觉信息。该模型能够实时响应用户输入,并且在音频交互...
阅读原文

Universal-1

Universal-1是AI语音初创公司AssemblyAI推出的一款多语言语音识别和转录模型,经过超过1250万小时的多语种音频数据训练,支持英语、西班牙语、法语和德语等。
阅读原文

Stable Assistant

Stable Assistant是由Stability AI开发的一款聊天机器人,集成了最新的文本和图像生成技术(Stable Diffusion 3和Stable LM 2 12B )。该AI对话工具能够理解...
阅读原文

ChatTTS

ChatTTS是一款专为对话场景设计的支持中英文的文本转语音(TTS)模型,基于约10万小时的中英文数据进行训练,能够生成高质量、自然流畅的对话语音。
阅读原文

Seed-TTS

Seed-TTS是由字节跳动开发的一系列高级文本到语音(Text to Speech,TTS)模型,能够生成与人类语音极为相似的高质量语音,具备出色的上下文学习能力和自然度。
阅读原文

Gen-3 Alpha

Gen-3 Alpha是由AI视频初创公司Runway最新发布的新一代AI视频生成模型,通过大规模多模态训练基础设施,显著提升了视频的保真度、一致性和动态表现。该模型能...
阅读原文
1121314151636