标签:多语言支持

EchoMimic

EchoMimic是阿里蚂蚁集团推出的AI数字人开源项目,赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点,创造出高度逼真的动态肖像视频。不...
阅读原文

度豆

度豆APP是百度推出的一款仿真人AI社交应用,基于文心大模型技术,提供与仿真数字人进行实时沟通和情感互动的体验。
阅读原文

FunAudioLLM

FunAudioLLM是阿里巴巴通义实验室推出的开源语音大模型项目,包含SenseVoice和CosyVoice两个模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语...
阅读原文

Chameleon

Chameleon 是 Meta(Facebook 的母公司)的人工智能研究团队 FAIR(Facebook AI Research)发布的一个能理解和生成任意序列的图像和文本的混合多模态模型。拥...
阅读原文

GPT-4o mini

GPT-4o mini 是 OpenAI 最新推出的一款AI大模型,提供更高效、更具成本效益的解决方案。这款新模型替代 GPT-3.5,成为市场上最具成本效益的小型模型。GPT-4o ...
阅读原文

Mem0

Mem0 是一款开源的大语言模型记忆增强工具,能够让 AI 拥有长期、适应性强的记忆。通过自适应记忆系统,AI能实现跨应用记住用户的偏好和交互,提供连贯且不断...
阅读原文

盘盘单词

盘盘单词是百度网盘推出的AI英语学习微信小程序。采用生成式AI技术,分析用户百度网盘的照片,提取关键元素,自动生成与用户生活紧密相关的英语单词和例句,...
阅读原文

Llama3.1

Llama 3.1是Meta最新发布的开源AI模型,包括8B、70B和405B三个版本,其中405B版本以其4050亿参数量成为目前最大的开源模型之一。Llama 3.1支持128K的上下文长...
阅读原文

智谱清影

智谱清影是智谱AI最新推出的AI视频生成工具,用户只需输入文本或上传图片,30秒内即可生成6秒视频。支持多种风格和背景音乐,适用于个人创作和专业制作。

Diffree

Diffree是由OpenGVLab推出的AI贴图框架,能根据用户的文字描述,在图片中自动找到合适的位置添加新对象。通过智能掩码预测,无需手动绘制,即可确定新对象的...
阅读原文

JoyCoder

JoyCoder是京东推出的AI编程助手,专为提升研发效率设计。通过代码预测续写、智能问答等功能,帮助开发者快速编写代码,解决技术难题。支持多模型切换,适配J...
阅读原文

FLUX.1

FLUX.1是由Stable Diffusion创始团队推出的开源AI图像生成模型,拥有12B参数,是迄今为止最大的文生图模型。包含三种变体:顶级性能的FLUX.1 [pro]、开源非商...
阅读原文

Tora

Tora是阿里推出的AI视频生成框架,基于轨迹导向的扩散变换器(DiT)技术,将文本、视觉和轨迹条件融合,生成高质量且符合物理世界动态的视频内容。Tora由轨迹...
阅读原文

Whisper-Medusa

Whisper-Medusa是aiOla推出的开源AI语音识别模型,结合了OpenAI的Whisper技术与aiOla的创新,Whisper-Medusa引入了多头注意力机制,实现了并行处理,显著提升...
阅读原文

SAM 2

SAM 2(Segment Anything Model 2)是Meta推出的AI对象分割模型,专注于实时图像和视频对象分割。具备零样本泛化能力,能准确分割未知对象,并通过统一架构同...
阅读原文
1222324252644