AI项目和框架

Nemotron-CC

Nemotron-CC是NVIDIA团队推出的大型预训练数据集,能将Common Crawl数据转化为适用于长序列预训练的高质量语料。Nemotron-CC数据集结合分类器集成、合成数据...
阅读原文

NVIDIA-Ingest

NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。NVIDIA-Ingest能将文档转换为元数据和文本,便于嵌入到检索系统中...
阅读原文

Eko

Eko是Fellou AI推出的生产就绪型JavaScript框架,基于自然语言驱动的方式,帮助开发者轻松创建从简单指令到复杂流程的可靠智能代理。Eko支持所有平台,包括计...
阅读原文

Emotion-LLaMA

Emotion-LLaMA是多模态情绪识别与推理模型,融合了音频、视觉和文本输入,通过特定情绪编码器整合信息。模型基于修改版LLaMA,经指令调整以提升情感识别能力...
阅读原文

GR00T-Teleop

GR00T-Teleop是NVIDIA Isaac GR00T的一部分,用在捕获远程操作数据的关键技术。基于NVIDIA CloudXR连接Apple Vision Pro头显,用专门设计的人形远程操作自定...
阅读原文

MiniRAG

MiniRAG是香港大学推出的新型检索增强型生成(RAG)系统,专为在资源受限的场景下高效部署小型语言模型(SLMs)设计。MiniRAG基于两个关键技术实现这一目标:...
阅读原文

Riona-AI-Agent

Riona-AI-Agent是Node.js 和 TypeScript 构建的 AI 驱动的自动化工具,能与 Instagram、Twitter 和 GitHub 等社交媒体平台进行交互。Riona-AI-Agent能生成引...
阅读原文

新言意码

新言意码是专注于AI编程应用开发的公司,由前月之暗面海外产品Noisee的明超平创立。公司全称深圳新言意码科技有限公司,成立于2024年9月23日,位于广东省深圳...
阅读原文

PPTAgent

PPTAgent是中国科学院软件研究所中文信息处理实验室推出的创新框架,基于模仿人类工作流程的两阶段编辑方法,从文档自动生成高质量的演示文稿。PPTAgent分析...
阅读原文

HoloDrive

HoloDrive 是商汤和上海人工智能实验室等机构提出的用于自动驾驶的整体2D-3D多模态街道场景生成框架。框架联合生成相机图像和激光雷达点云,填补自动驾驶中2D...
阅读原文

Perception-as-Control

Perception-as-Control是阿里巴巴通义实验室推出的图像动画框架,能根据用户意图实现细粒度的运动控制。Perception-as-Control基于构建3D感知运动表示,将相...
阅读原文

Motion Dreamer

Motion Dreamer是香港科技大学(广州)研究者提出的视频生成框架,旨在生成运动合理视频。基于两阶段生成方式,先基于输入图像和运动条件生成中间运动表示,...
阅读原文

Sky-T1

Sky-T1是加州大学伯克利分校Sky Computing实验室的研究团队NovaSky发布的开源推理AI模型,名为Sky-T1-32B-Preview。是首个开源推理模型,训练数据集和代码均...
阅读原文

FaceLift

FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。FaceLift基于两阶段的流程实现:基...
阅读原文

SVFR

SVFR(Stable Video Face Restoration)是腾讯优图实验室和厦门大学联合推出的用于广义视频人脸修复的统一框架,整合了视频人脸修复(BFR)、着色和修复任务...
阅读原文
123475