AI项目和框架

AgenticSeek

AgenticSeek是完全本地化的开源AI助手,也是 Manus 的开源平替。AgenticSeek能在本地设备上自主执行任务,如浏览网页、编写代码、规划复杂项目等,所有数据和...
阅读原文

Slidev

Slidev 是开源的幻灯片制作工具,基于 Markdown + Vue 技术栈实现。工具支持用简单的 Markdown 语法创建幻灯片,支持代码高亮、实时编码演示、数学公式渲染、...
阅读原文

Morphik

Morphik 是开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档设计。支持对图像、PDF、视频等多种格式的文档进行搜索,采用 ColPal...
阅读原文

MTVCrafter

MTVCrafter是中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等机构推出的新型人类图像动画框架,基于原始3D运动序列进行...
阅读原文

Pixel Reasoner

Pixel Reasoner是滑铁卢大学、香港科技大学、中国科学技术大学等机构推出的视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。
阅读原文

SurfSense

SurfSense 是开源的 AI 研究工具,类似于 NotebookLM 和 Perplexity,具备更强的扩展性。工具能与多种外部数据源(如搜索引擎、Slack、Notion、YouTube、GitH...
阅读原文

Vid2World

Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基于视...
阅读原文

Gemini Diffusion

Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini Diffusion...
阅读原文

3DTown

3DTown 是哥伦比亚大学联合Cybever AI等机构推出的从单张俯视图生成3D城镇场景框架。框架基于区域化生成和空间感知的3D修复技术,将输入图像分解为重叠区域,...
阅读原文

Aurora

Aurora是微软研究院推出的13亿参数的大气基础模型,基于从海量大气数据中提取有价值信息,用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训...
阅读原文

DeepWiki MCP

DeepWiki MCP 是Cognition Labs推出的远程服务器,基于开放标准的 Model Context Protocol(MCP)。DeepWiki MCP为 AI 应用提供访问和搜索 GitHub 代码库文档...
阅读原文

Playwright MCP

Playwright MCP 是微软推出的轻量级浏览器自动化工具,基于 Model Context Protocol (MCP) 协议。工具基于 Playwright 的可访问性树实现与网页的交互,无需依...
阅读原文

RelightVid

RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型,支持根据文本提示、背景视...
阅读原文

HRAvatar

HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术,支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术,基...
阅读原文

Pocket Flow

Pocket Flow 是极简的 LLM(大型语言模型)框架,仅用 100 行代码实现,具有轻量级、无依赖、无厂商锁定的特点。Pocket Flow支持多Agents、工作流、检索增强...
阅读原文
12345121