标签:多语言支持

Zonos-v0.1

Zonos-v0.1是Zyphra推出的高保真文本到语音(TTS)模型。Zonos-v0.1包含两个模型:16亿参数的Transformer模型和SSM混合模型,均在Apache 2.0许可下开源。Zono...
阅读原文

Goku

Goku是香港大学和字节跳动联合发布的最新视频生成模型,专为图像和视频的联合生成设计。基于先进的rectified flow Transformer框架,支持文生视频、图生视频...
阅读原文

ACE++

ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具,通过指令化和上下文感知的内容填充技术,实现了高质量的图像创作和编辑功能。
阅读原文

LangBot

LangBot 是开源的即时聊天机器人平台,支持多平台(如 QQ、微信、飞书、Discord 等)和多种大语言模型(如 ChatGPT、DeepSeek、Gemini 等)。LangBot具备多模...
阅读原文

WorldSense

WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力的基准测试。WorldSen...
阅读原文

AI Chat-avatar

AI Chat-avatar 是 AI 驱动的数字人交互助手,通过高度个性化的互动体验提升沟通效率与用户参与度。具备多语言支持,能实时翻译并进行自然对话,打破语言障碍...
阅读原文

EliGen

EliGen是浙江大学和阿里巴巴集团联合开发的新型的实体级可控图像生成框架,通过引入区域注意力机制,无需额外参数即可将实体提示和任意形状的空间掩码无缝集...
阅读原文

Hibiki

Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型,能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模型架构,同步处理源语...
阅读原文

Ola

Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略,逐步扩展语言模型支持的模态,从图像和文...
阅读原文

BEN2

BEN2(Background Erase Network 2)是Prama LLC开发的深度学习模型,专门用于从图像和视频中快速移除背景并提取前景。基于创新的置信度引导抠图(CGM)管道...
阅读原文

播记

播记是专为播客创作者设计的智能节目笔记(Shownotes)生成工具。通过AI技术,能快速提取播客音频中的关键信息,自动生成包含节目主题、嘉宾介绍、重要观点、...
阅读原文

SANA 1.5

SANA 1.5 是英伟达联合MIT、清华、北大等机构推出的新型高效的线性扩散变换器(Linear Diffusion Transformer),用于文本到图像生成任务。在 SANA 1.0 的基...
阅读原文

倍客AI

倍客AI是专注于 AI 内容创作的平台,通过人工智能技术为商业摄影、广告设计、电商展示等领域提供高效、高质量的创意解决方案。平台的核心功能包括 AI 商图、A...
阅读原文

JoyGen

JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸视频生成框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度...
阅读原文

Le Chat APP

Le Chat APP是法国人工智能初创公司Mistral AI推出的AI对话助手应用。支持自然语言对话、实时网页搜索、文档分析和图像生成等功能。Le Chat提供基础版免费使...
阅读原文
1181920212261