标签:多语言支持

Illuminate

Illuminate 是一个由谷歌开发的项目,能将学术论文转化为人工智能生成的音频讨论。项目基于谷歌强大的语言模型 Gemini,将论文内容转换成引人入胜的对话,使...
阅读原文

FLUX.1-Turbo-Alpha

FLUX.1-Turbo-Alpha是阿里妈妈创意团队基于FLUX.1-dev模型训练的8步蒸馏Lora模型。基于多头判别器技术,升图像生成的质量,支持文本到图像的生成及修复控制网...
阅读原文

fal

al是一个面向开发者的AI平台,专注于生成音频、视频和图像。fal提供高性能的推理引擎,支持实时应用,采用灵活的按需付费模式。fal支持跨平台集成,提供实时...
阅读原文

AsrTools

AsrTools是一款高效的智能语音转文字工具,能将音频文件快速转换成精确的文字内容。工具的优势在于无需复杂的配置,直接调用大厂的ASR接口,无需GPU支持,用...
阅读原文

Baichuan-Omni

Baichuan-Omni 是由百川智能推出的一款开源的 7B 多模态大型语言模型(MLLM),能同时处理和分析图像、视频、音频和文本等多种模态的数据。Baichuan-Omni 提...
阅读原文

saga

saga是一个集成人工智能的创意工作区平台,通过运用先进的大型语言模型(LLMs),如OpenAI和Anthropic开发的模型,帮助用户进行创意生成、主题分析、关键词提...
阅读原文

BANTER AI

BanterAI 是一个创新的AI平台,基于先进的技术让用户与名人的虚拟克隆体进行实时语音对话。平台提供一个沉浸式的体验,用户与喜欢的艺人、演员或历史人物的克...
阅读原文

Langotalk

Langotalk是一个创新的在线语言学习平台,基于AI技术为语言学习者提供个性化和沉浸式的学习体验。平台支持20多种语言,如英语、西班牙语、法语、德语、意大利...
阅读原文

Gliglish

Gliglish 是一个创新的语言学习平台,基于AI技术模拟真实的对话场景,帮助用户提高口语和听力水平。平台基于先进的语音识别和自然语言处理技术,让用户用语音...
阅读原文

FunASR

FunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR...
阅读原文

Hallo2

Hallo2是复旦大学、百度公司和南京大学共同推出的音频驱动视频生成模型。能将单张参考图片和持续几分钟的音频输入结合起来,基于可选的文本提示调节肖像表情...
阅读原文

Marco

Marco是阿里国际最新推出的大规模商用翻译大模型,支持15种全球主流语种,包括中、英、日、韩、西、法等。在BLEU评测指标上超越Google翻译、DeepL、GPT-4等竞...
阅读原文

TANGO

TANGO 是一个由东京大学和 CyberAgent AI Lab 共同推出的开源框架,专注于生成与目标语音同步的全身手势视频。基于分层音频运动嵌入和扩散插值网络,将目标语...
阅读原文

Any Summary

Any Summary是一款基于人工智能技术的文档总结工具,能快速分析和总结长文本、音频或视频文件。用户可以上传文件或提供链接,Any Summary将用AI技术提取关键...
阅读原文

adcopy

adcopy 是一款专为 Meta(Facebook)广告平台设计的 AI 驱动广告工具,通过运用人工智能技术帮助用户生成广告文案、优化广告投放,并提供 A/B 测试数据。支持...
阅读原文
1232425262734