AI项目和框架

PDFMathTranslate – 开源的PDF文档翻译和双语对照工具

PDFMathTranslate是开源的PDF文档翻译工具,设计用于翻译科技论文等PDF文件,能保留原文的排版,包括公式和图表。PDFMathTranslate支持双语对照,保持原有目...
阅读原文

MoneyPrinterTurbo – 开源的AI短视频生成工具

MoneyPrinterTurbo是开源的AI短视频生成工具,能自动化地根据用户提供的视频主题或关键词生成视频文案、素材、字幕和背景音乐,合成高清短视频。工具支持API...
阅读原文

文心iRAG – 百度推出检索增强的文生图技术,解决生成上的幻觉问题

文心iRAG是百度在2024年百度世界大会上推出的检索增强的文生图技术(iRAG)技术,结合了百度搜索的亿级图片资源和强大的基础模型能力,解决大模型在文生图方...
阅读原文

ORMBG – 开源的AI图像分割工具

ORMBG是开源的AI图像分割工具,由开发者schirrmacher在GitHub上发起。ORMBG专注于从图片中准确去除背景,用先进的图像处理技术,实现对图像中前景和背景的精...
阅读原文

VITA – 腾讯推出的开源多模态AI模型

VITA是腾讯优图实验室推出的全球首个开源多模态大语言模型(MLLM),能理解和处理视频、图像、文本和音频。基于Mixtral 8×7B模型,扩展了中文词汇量,进行了...
阅读原文

CrewAI – 构建多个 AI Agents 高效协作的开源平台

CrewAI是专注于构建多个 AI Agents 高效协作的开源平台,通过简化 AI Agents 框架的使用,企业能快速构建和部署智能自动化解决方案。CrewAI平台的核心优势在...
阅读原文

Phi-3.5 – 微软推出的新一代AI模型,mini、MoE混合和视觉模型

Phi-3.5是微软推出的新一代AI模型系列,包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本,分别针对轻量级推理、混合...
阅读原文

MetaHuman-Stream – 实时交互流式AI数字人技术

MetaHuman-Stream 是一项前沿的实时交互流式AI数字人技术,集成了 ERNerf、MuseTalk、Wav2lip 等多种先进模型,支持声音克隆和深度学习算法,确保对话流畅自...
阅读原文

Roop – 开源的AI视频换脸工具

Roop 是开源的AI视频换脸工具,Roop支持用户通过一张图片替换视频中的面部,无需复杂的数据集或训练过程。安装和使用需要一定的技术技能,适合有一定基础的用...
阅读原文

ComfyUI-Bxb – SD变现宝,一键把 ComfyUI 工作流转换成小程序

ComfyUI-Bxb是“SD变现宝”,一键把 ComfyUI 工作流转换成小程序,专为小程序开发者设计,实现快速变现。ComfyUI-Bxb的核心功能是将ComfyUI工作流转换为微信小...
阅读原文

MARS5-TTS – 开源的AI声音克隆工具,支持140+语言

MARS5-TTS是CAMB.AI推出开源的AI声音克隆工具,有突破性逼真的韵律,支持140多种语言支持。还能处理复杂韵律场景,如体育解说和动漫AI配音等。MARS5-TTS具有1...
阅读原文

LanceDB – 为AI应用设计的无服务器向量数据库,降低运维成本

LanceDB 是一款专为人工智能应用设计的无服务器向量数据库,支持向量搜索、全文搜索和SQL查询,优化了多模态数据处理。它采用向量索引技术,实现高效相似度搜...
阅读原文

Kotaemon – 基于 RAG 技术的开源工具,聊天的方式快速检索文档信息

Kotaemon 是一款基于 RAG 技术的开源工具,支持用户通过自然语言与文档进行互动,快速检索和理解信息。适合需要处理大量文档的场合,如学术研究、企业文档管...
阅读原文

mPLUG-DocOwl2 – 阿里推出多页文档理解的多模态大模型,单页仅需324个token

mPLUG-DocOwl 2是由阿里巴巴通义实验室mPLUG团队推出的用于多页文档理解的多模态大型语言模型。在不依赖光学字符识别(OCR)技术的情况下,通过高分辨率文档...
阅读原文

QA-MDT – 中科大联合科大讯飞推出开源音乐生成模型

QA-MDT(Quality-aware Masked Diffusion Transformer)是由中国科学技术大学和科大讯飞联合推出的开源音乐生成模型。模型基于文本描述生成高质量且音乐性强...
阅读原文
123443