AI项目和框架

auto-video-generator

auto-video-generator是AI自动解说视频生成器,能实现一键生成解说视频。用户只需输入主题,系统便自动撰写脚本、合成语音、生成图片并合成视频,极大提升内...
阅读原文

VFusion3D

VFusion3D 是由 Meta 和牛津大学的研究人员共同推出的AI生成3D模型项目,能从单张图片或文本描述中生成高质量的3D对象。VFusion3D 通过微调预训练的视频 AI ...
阅读原文

edge-tts

edge-tts是开源的AI文字转语音项目,支持超过40种语言和300多种声音。edge-tts利用微软Azure Cognitive Services的强大功能,能将文本信息转换成流畅自然的语...
阅读原文

LM Studio

LM Studio 是一个本地大语言模型 (LLM) 应用平台,开源、傻瓜、一站式部署本地大模型。包括但不限于Llama、MPT、Gemma等,LM Studio 提供了一个图形用户界面...
阅读原文

Video-LLaVA2

Video-LLaVA2是由北京大学ChatLaw课题组研发的开源多模态智能理解系统,通过创新的时空卷积(STC)连接器和音频分支,提升了视频和音频理解能力。模型在视频...
阅读原文

MUMU

MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UNet,采用了...
阅读原文

LLaVA-OneVision

LLaVA-OneVision是字节跳动推出开源的多模态AI模型,LLaVA-OneVision通过整合数据、模型和视觉表示的见解,能同时处理单图像、多图像和视频场景下的计算机视...
阅读原文

HMoE

HMoE(混合异构专家模型)是腾讯混元团队提出的新型神经网络架构,旨在提升大型语言模型的性能和计算效率。通过引入不同尺寸的专家来处理不同复杂性的输入数...
阅读原文

CustomCrafter

CustomCrafter 是腾讯和浙江大学联合提出的自定义视频生成框架,能基于文本提示和参考图像生成高质量的个性化视频,同时保留了运动生成和概念组合的能力。Cus...
阅读原文

LitServe

LitServe是基于FastAPI的高性能AI模型部署引擎,专为企业级AI服务设计。支持批处理、流式处理和GPU自动扩展,简化了模型部署流程。
阅读原文

LongVILA

LongVILA是一个面向长视频理解的视觉语言AI模型,由英伟达、MIT、UC 伯克利、得克萨斯大学奥斯汀分校共同开发。通过算法和系统的共同设计,实现了在大量GPU上...
阅读原文

LeRobot

LeRobot是由HuggingFace推出的开源AI聊天机器人项目,由前特斯拉研究员Remi Cadene领导开发。LeRobot致力于降低机器人技术的入门门槛,提供预训练模型、数据...
阅读原文

OmniCorpus

OmniCorpus是一个大规模多模态数据集,包含86亿张图像和16960亿个文本标记,支持中英双语。由上海人工智能实验室联合多所知名高校及研究机构共同构建。OmniCo...
阅读原文

EasyOCR

EasyOCR 是一个功能强大的开源OCR(光学字符识别)项目,支持80多种语言和多种书写系统,包括中文、阿拉伯文和西里尔文。基于深度学习技术,提供高精度的文字...
阅读原文

GptEngineer

GptEngineer 是一个基于 AI 技术通过简单的文本提示快速生成网页应用原型的开源工具。用户只需描述需求,AI 能自动编写并执行代码,支持与 GitHub 同步和一键...
阅读原文
1606162636486