AI项目和框架

AI Dev Gallery

AI Dev Gallery是微软推出的开源AI工具包和示例库,集成在Visual Studio中,帮助Windows开发者轻松集成端侧AI功能。AI Dev Gallery提供超过25个交互式示例,...
阅读原文

OpenEMMA

OpenEMMA是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型(MLLMs)处理视觉数据和复杂驾驶...
阅读原文

RAG Logger

RAG Logger是开源的日志记录工具,专为检索增强生成(RAG)应用设计。作为LangSmith的轻量级替代品,专注于满足RAG应用的日志记录需求。RAG Logger提供查询跟...
阅读原文

Psi R0

Psi R0是灵初智能发布的首个基于强化学习的端到端具身模型。支持双灵巧手协同进行复杂操作,能够将多个技能串联混训,生成具有推理能力的智能体,完成并闭环...
阅读原文

FireCrawl

FireCrawl是开源的AI爬虫工具,专门用在Web数据提取,转换为Markdown或其他结构化数据。FireCrawl具备强大的抓取能力,支持动态网页内容处理,提供智能爬取状...
阅读原文

VideoVAE+

VideoVAE+(VideoVAE Plus)是香港科技大学团队推出的先进的跨模态视频变分自编码器(Video VAE),通过引入新的时空分离压缩机制和文本指导,实现了对大幅运...
阅读原文

Languine

Languine 是 AI 驱动的翻译工具,能帮助开发者简化应用程序的开发过程。Languine 基于智能检测、AI 翻译、自动化工作流程和开发者友好的设计,让翻译管理变得...
阅读原文

AgiBot World

AgiBot World是智元机器人开源的百万真机数据集,旨在推动具身智能的发展。数据集包含八十余种日常技能,覆盖家居、餐饮、工业等五大核心场景,数据规模和质...
阅读原文

GraphAgent

GraphAgent是香港大学和香港科技大学(广州)联合推出的智能图形语言助手,能处理现实世界中结构化(如图连接)和非结构化(如文本、视觉信息)格式的数据,...
阅读原文

DeepSeek Engineer

DeepSeek Engineer 是集成DeepSeek API 的AI编程助手,基于命令行界面让用户能读取本地文件、创建新文件及实时对现有文件进行差异编辑。DeepSeek Engineer用 ...
阅读原文

VideoPhy

VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评估视频生成模型物理常识能力的基准测试,能衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy基准...
阅读原文

Large Motion Model

Large Motion Model(LMM)是统一的多模态运动生成模型,是新加坡南洋理工大学S-Lab和商汤科技研究团队共同推出的。LMM能处理包括文本到运动、音乐到舞蹈等多...
阅读原文

StereoCrafter

StereoCrafter是腾讯AI Lab和ARC Lab共同推出的创新框架,能将单目视频(2D视频)转换为立体3D视频,满足日益增长的3D内容需求。StereoCrafter基于深度估计、...
阅读原文

SPAR

SPAR是智谱团队推出的自我博弈框架,能增强大型语言模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动,生成者执行指令生成回复,完...
阅读原文

LowCodeEngine

LowCodeEngine是阿里巴巴开源的低代码开发框架,基于提供拖拽、配置等简单操作,让开发者快速构建复杂的系统页面。框架以强大的定制能力、优雅的开发体验、丰...
阅读原文
14849505152116