AI项目和框架

Deep Research Web UI

Deep Research Web UI 是开源的 AI 研究助手工具,帮助用户高效地进行深度研究。通过 AI 驱动的迭代搜索,逐步深入挖掘指定主题,以树状结构可视化研究过程,...
阅读原文

Gemma 3

Gemma 3 是谷歌最新推出的开源人工智能模型,专为开发者设计,支持多种设备上的人工智能应用开发。支持超过 35 种语言,具备分析文本、图像及短视频的能力,...
阅读原文

PP-DocBee

PP-DocBee是百度飞桨(PaddlePaddle)团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构,具备强大的中文文档解析能力,能高效处理文字、表...
阅读原文

BEHAVIOR Robot Suite

BEHAVIOR Robot Suite(BRS)是斯坦福大学李飞飞团队推出的用在学习全身操作完成日常家务任务的框架。基于分析家务活动,确定机器人需要具备的关键能力,包括...
阅读原文

VACE

VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编辑、遮罩编...
阅读原文

Seedream 2.0

Seedream 2.0 是字节跳动豆包大模型团队推出的原生中英双语图像生成模型,解决现有模型在文本渲染、文化理解等方面的不足。模型通过自研的双语大语言模型(LL...
阅读原文

MV-MATH

MV-MATH 是中科院自动化所提出的新基准数据集,评估多模态大语言模型(MLLMs)在多视觉场景中的数学推理能力。数据集包含2009个高质量的数学问题,每个问题都...
阅读原文

PlanGEN

PlanGEN 是谷歌研究团队推出的多智能体框架,通过多智能体协作、约束引导和算法自适应选择,解决复杂问题的规划和推理。包含三个关键组件:约束智能体、验证...
阅读原文

MHA2MLA

MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法,基于引入DeepSeek的多头潜在注意力机制(MLA),优化任何基于Transformer...
阅读原文

GaussianAnything

GaussianAnything 是南洋理工大学 S-Lab 联合上海 AI Lab 等机构推出的 3D 生成框架。GaussianAnything 基于交互式的点云结构化潜空间和级联的流匹配模型,实...
阅读原文

DeepSeek百宝箱

DeepSeek百宝箱是 DeepSeek 团队维护的 GitHub 项目,展示如何将 DeepSeek API 集成到各种流行软件中。项目列出了一系列支持 DeepSeek 的工具和应用,涵盖了...

Anus

Anus(Autonomous Networked Utility System)是 Manus 生成的开源自主智能体项目,复刻 Manus 的部分功能。Anus支持自然语言指令执行、多代理协作、网络交互...
阅读原文

MeshPad

MeshPad 是基于草图输入的交互式艺术化网格生成与编辑工具,能将简单的二维草图迅速转化为高质量的 3D 网格模型,支持实时编辑。用户在草图上添加或删除线条...
阅读原文

TrajectoryCrafter

TrajectoryCrafter 是腾讯PCG ARC Lab和香港中文大学推出的,用在单目视频的相机轨迹重定向方法,支持在后期自由调整视频的相机位置和角度,轻松改变视频中的...
阅读原文

LanPaint

LanPaint 是 为Stable Diffusion 模型设计的高质量图像修复工具,无需额外训练实现精准的图像修复和替换。LanPaint基于多轮迭代推理优化修复效果,支持无缝且...
阅读原文
12021222324115