标签:多语言支持
Gen-3 Alpha – Runway公司最新推出的AI视频生成模型
Gen-3 Alpha是由AI视频初创公司Runway最新发布的新一代AI视频生成模型,通过大规模多模态训练基础设施,显著提升了视频的保真度、一致性和动态表现。该模型能...
Toucan TTS – 免费开源的文本转语音工具,支持超7000种语言
Toucan TTS是由德国斯图加特大学自然语言处理研究所(IMS)开发的文本到语音合成工具箱,支持超过7000种语言,包括多种方言和变体,提供多说话人语音合成、语...
ElevenLabs Reader App – AI文本转语音应用
ElevenLabs Reader App是由AI语音初创公司ElevenLabs推出的一款文本转语音应用,利用AI技术将各类文本内容,如文章、PDF文件、ePub等,转化为自然流畅、高音...
豆包MarsCode – 字节跳动推出的免费AI编程助手
豆包MarsCode是字节跳动旗下的公司推出的一个免费AI编程工具,既提供一个AI驱动的云端集成开发环境(IDE),也支持作为VS Code和JetBrains的智能编程扩展(Ex...
Gemma 2 – 谷歌DeepMind推出的新一代开源人工智能模型
Gemma 2是谷歌DeepMind推出的新一代开源人工智能模型,包含90亿和270亿参数版本。该模型以卓越的性能、高效的推理速度和广泛的硬件兼容性为特点,能够与参数...
FreeAskInternet – 免费开源的本地AI搜索引擎
FreeAskInternet是一个免费开源的本地AI搜索引擎,整合了GPT-3.5等先进的大型语言模型(LLM)和SearXNG元搜索引擎,为用户提供搜索和智能答案生成服务。
Fish Speech – 开源的高效文本到语音合成TTS工具
Fish Speech是一款由Fish Audio开发的开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水平的语音合成...
EchoMimic – 阿里推出的开源数字人项目,赋予静态图像以生动语音和表情
EchoMimic是阿里蚂蚁集团推出的AI数字人开源项目,赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点,创造出高度逼真的动态肖像视频。不...
FunAudioLLM – 阿里巴巴通义团队推出的开源语音大模型
FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目,包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语...
Chameleon – Meta推出的图文混合多模态开源模型
Chameleon 是 Meta(Facebook 的母公司)的人工智能研究团队 FAIR(Facebook AI Research)发布的一个能理解和生成任意序列的图像和文本的混合多模态模型。拥...
GPT-4o mini – OpenAI 推出全新 AI 模型替代GPT-3.5
GPT-4o mini 是 OpenAI 最新推出的一款AI大模型,提供更高效、更具成本效益的解决方案。这款新模型替代 GPT-3.5,成为市场上最具成本效益的小型模型。GPT-4o ...
Mem0 – 一款开源的大语言模型记忆增强工具
Mem0 是一款开源的大语言模型记忆增强工具,能够让 AI 拥有长期、适应性强的记忆。通过自适应记忆系统,AI能实现跨应用记住用户的偏好和交互,提供连贯且不断...
盘盘单词 – 百度网盘推出的AI英语学习小程序
盘盘单词是百度网盘推出的AI英语学习微信小程序。采用生成式AI技术,分析用户百度网盘的照片,提取关键元素,自动生成与用户生活紧密相关的英语单词和例句,...
Llama3.1 – Meta最新发布的最强开源AI模型
Llama 3.1是Meta最新发布的开源AI模型,包括8B、70B和405B三个版本,其中405B版本以其4050亿参数量成为目前最大的开源模型之一。Llama 3.1支持128K的上下文长...