标签:实时翻译
MMAudio:高质量AI音频合成的多模态联合训练技术创新
MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精...
GenCast:DeepMind推出的性AI气象预测模型提气预报精准度与效率
GenCast是DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。GenCast在97.2%的预测任务中超越全球顶尖的中期天气预报系统...
I2V-01-Live:海螺AI创新图生视频模型助力创意内容生成与视觉表现提升
I2V-01-Live是海螺AI推出的图生视频模型,能将静态二维图像转化为动态视频。模型基于深度学习技术,增强动作的流畅度和生动性,让人物或对象的动作更加自然和...
Voice-Pro:一站式音频处理解决方案集转录翻译与语音合成于一体
Voice-Pro是开源的多功能音频处理工具,集成语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言...
聊会小天:智能AI伴侣助您心灵成长与情感支持
聊会小天是由西湖心辰基于自研的西湖大模型推出的AI心理陪伴产品。它结合认知行为疗法、叙事疗法和人本主义疗法,经过近三年的专业训练,具备心理咨询技能。...
吱意:智能多模态翻译与创作平台助力全球沟通与创意表达
吱意是AI多模态翻译平台,提供视频翻译、智能配音和音频转写等功能。平台基于智能语音识别技术和神经网络翻译技术,为用户提供专业高效的视频在线翻译服务。...
跃问视频:智能生成视频的全新工具助力创意无限
跃问视频是阶跃星辰推出的AI视频生成工具,支持多种视频创作主题,例如城市、科幻、自然、跑车、美食等。用户可以通过跃问视频官方提供的视频示例获得创意灵...
VoicePen.ai:智能内容生成工具助你轻松创建多媒体博客文章
VoicePen.ai 是AI驱动的内容创作工具,能将音频、视频、语音备忘录和网站内容快速转换成博客文章。VoicePen.ai 用粘贴链接或上传文件,自动生成引人入胜的内...
VoiceCraft
VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构...
Voice Engine
Voice Engine是OpenAI最新推出的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。该项技术自2022年...
Fish Speech
Fish Speech是一款由Fish Audio开发的开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水平的语音合成...