标签:自然语言处理

TurboTTS

TurboTTS 是免费的在线文本转语音工具,支持70多种语言和300多种真实语音选择,能生成自然、逼真的语音效果,适用于短视频创作、在线教育、广告制作、播客等...
阅读原文

ACE++

ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具,通过指令化和上下文感知的内容填充技术,实现了高质量的图像创作和编辑功能。
阅读原文

LLaVA-Rad

LLaVA-Rad是微软研究院推出的小型多模态模型,专注于临床放射学报告生成。是LLaVA-Med项目的分支,特别是胸部X光(CXR)成像。基于LLaVA-Med的基础架构和训练...
阅读原文

FireRedASR

FireRedASR 是小红书开源的工业级自动语音识别(ASR)模型家族,支持普通话、中文方言和英语,在普通话 ASR 基准测试中达到了新的最佳水平(SOTA),在歌词识...
阅读原文

MVoT

MVoT(Multimodal Visualization-of-Thought)是微软研究院、剑桥大学语言技术实验室、中国科学院自动化研究所推出的新型多模态推理范式,基于生成图像可视化...
阅读原文

HMA

HMA(Heterogeneous Masked Autoregression)是麻省理工学院、Meta和伊利诺伊大学香槟分校开源的,用在建模机器人动作视频动态的方法。HMA基于异构预训练,用...
阅读原文

鲸喷 DeepRant

DeepRant(中文名:鲸喷)是专为游戏玩家设计的多语言快捷翻译工具。DeepRant能够帮助玩家在国际服务器中快速进行文字交流,消除语言障碍。玩家在游戏中选中...
阅读原文

Agno

Agno 是构建智能代理(Agents)的轻量级框架。Agno 支持多模态(文本、图像、音频、视频)和多代理协作,能快速创建代理,速度比 LangGraph 快 5000 倍,支持...
阅读原文

Ola

Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略,逐步扩展语言模型支持的模态,从图像和文...
阅读原文

BEN2

BEN2(Background Erase Network 2)是Prama LLC开发的深度学习模型,专门用于从图像和视频中快速移除背景并提取前景。基于创新的置信度引导抠图(CGM)管道...
阅读原文

AstrBot

AstrBot 是多平台聊天机器人及开发框架,支持多种大语言模型(如 OpenAI GPT、Google Gemini、Llama 等)和多种消息平台(如 QQ、Telegram、微信等)。AstrBo...
阅读原文

Eino

Eino 是字节跳动开源的大模型应用开发框架,能帮助开发者高效构建基于大模型的 AI 应用。Eino以 Go 语言为基础,具备稳定的内核、灵活的扩展性和完善的工具生...
阅读原文

倍客AI

倍客AI是专注于 AI 内容创作的平台,通过人工智能技术为商业摄影、广告设计、电商展示等领域提供高效、高质量的创意解决方案。平台的核心功能包括 AI 商图、A...
阅读原文

JoyGen

JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸视频生成框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度...
阅读原文

Seede.ai

Seede.ai是 AI 图像设计工具,专为简化设计流程,使没有设计经验的用户能在短时间内创建出专业级的设计作品。提供一句话生成设计,用户只需输入简单描述,AI...
阅读原文
191011121357