AI项目和框架

LitServe

LitServe是基于FastAPI的高性能AI模型部署引擎,专为企业级AI服务设计。支持批处理、流式处理和GPU自动扩展,简化了模型部署流程。
阅读原文

LongVILA

LongVILA是一个面向长视频理解的视觉语言AI模型,由英伟达、MIT、UC 伯克利、得克萨斯大学奥斯汀分校共同开发。通过算法和系统的共同设计,实现了在大量GPU上...
阅读原文

LeRobot

LeRobot是由HuggingFace推出的开源AI聊天机器人项目,由前特斯拉研究员Remi Cadene领导开发。LeRobot致力于降低机器人技术的入门门槛,提供预训练模型、数据...
阅读原文

OmniCorpus

OmniCorpus是一个大规模多模态数据集,包含86亿张图像和16960亿个文本标记,支持中英双语。由上海人工智能实验室联合多所知名高校及研究机构共同构建。OmniCo...
阅读原文

EasyOCR

EasyOCR 是一个功能强大的开源OCR(光学字符识别)项目,支持80多种语言和多种书写系统,包括中文、阿拉伯文和西里尔文。基于深度学习技术,提供高精度的文字...
阅读原文

GptEngineer

GptEngineer 是一个基于 AI 技术通过简单的文本提示快速生成网页应用原型的开源工具。用户只需描述需求,AI 能自动编写并执行代码,支持与 GitHub 同步和一键...
阅读原文

STranslate

STranslate是专为Windows用户设计的多功能翻译和OCR工具。支持多种语言翻译,具备划词、截图、监听剪贴板等多种翻译方式,并提供多家翻译服务接口。还拥有基...
阅读原文

LTM-2-mini

LTM-2-mini是Magic公司推出的支持1亿token上下文AI模型,能处理相当于1000万行代码或750本小说的内容。LTM-2-mini采用序列维度算法,计算效率比Llama 3.1 405...
阅读原文

VectorVein

VectorVein 是一款开源的无代码AI工作流工具,通过简化的拖拽操作,让用户无需编程知识即可构建智能工作流,实现日常任务的自动化。它支持数据处理、分析和知...
阅读原文

OpenCity

OpenCity是由香港大学联合华南理工大学和百度共同研发的交通预测模型。OpenCity采用Transformer架构和图神经网络,通过大规模预训练学习交通数据的时空依赖关...
阅读原文

Eagle

Eagle是英伟达推出的多模态大模型,擅长处理高达1024×1024像素的图像,显著提升视觉问答和文档理解能力。Eagle模型采用多专家视觉编码器架构,通过简单高效的...
阅读原文

PGTFormer

PGTFormer是先进的视频人脸修复框架,通过解析引导的时间一致性变换器来恢复视频中的高保真细节,同时增强时间连贯性。该方法无需预对齐,基于语义解析选择最...
阅读原文

HivisionIDPhotos

HivisionIDPhoto 是一款基于 AI 的轻量级证件照制作工具,它能智能识别和抠图,快速生成符合多种规格的证件照。支持自定义背景色和尺寸,未来还将推出美颜和...
阅读原文

Step-1X

Step-1X 是阶跃星辰推出的AI图像生成大模型,采用自研的 DiT 架构,擅长深度语义理解和细节生成。Step-1X支持长达2000字符的复杂指令,能精准匹配图文,适用...
阅读原文

Melty

Melty是一款开源AI编程助手,专为提升开发者的编码效率和代码质量而设计。Melty通过实时理解开发者的编程活动,从终端操作到 GitHub 交互,提供智能协作和代...
阅读原文