AI工具

Gemma 3

Gemma 3 是谷歌最新推出的开源人工智能模型,专为开发者设计,支持多种设备上的人工智能应用开发。支持超过 35 种语言,具备分析文本、图像及短视频的能力,...
阅读原文

PP-DocBee

PP-DocBee是百度飞桨(PaddlePaddle)团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构,具备强大的中文文档解析能力,能高效处理文字、表...
阅读原文

BEHAVIOR Robot Suite

BEHAVIOR Robot Suite(BRS)是斯坦福大学李飞飞团队推出的用在学习全身操作完成日常家务任务的框架。基于分析家务活动,确定机器人需要具备的关键能力,包括...
阅读原文

VACE

VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编辑、遮罩编...
阅读原文

Seedream 2.0

Seedream 2.0 是字节跳动豆包大模型团队推出的原生中英双语图像生成模型,解决现有模型在文本渲染、文化理解等方面的不足。模型通过自研的双语大语言模型(LL...
阅读原文

MV-MATH

MV-MATH 是中科院自动化所提出的新基准数据集,评估多模态大语言模型(MLLMs)在多视觉场景中的数学推理能力。数据集包含2009个高质量的数学问题,每个问题都...
阅读原文

PlanGEN

PlanGEN 是谷歌研究团队推出的多智能体框架,通过多智能体协作、约束引导和算法自适应选择,解决复杂问题的规划和推理。包含三个关键组件:约束智能体、验证...
阅读原文

绘蛙·多图成片

绘蛙·多图成片是阿里绘蛙推出的AI视频生成工具,基于上传2-4张具有连贯性的图片,结合文字描述,快速生成一段流畅的视频。用户选择本地上传图片或从已有作品...
阅读原文

Responses API

Responses API 是 OpenAI 推出的用在构建 AI Agents 的核心接口,Responses API是 Chat Completions API 的升级版,结合 Assistants API 的工具调用能力,支...
阅读原文

MHA2MLA

MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法,基于引入DeepSeek的多头潜在注意力机制(MLA),优化任何基于Transformer...
阅读原文

GaussianAnything

GaussianAnything 是南洋理工大学 S-Lab 联合上海 AI Lab 等机构推出的 3D 生成框架。GaussianAnything 基于交互式的点云结构化潜空间和级联的流匹配模型,实...
阅读原文

DeepSeek百宝箱

DeepSeek百宝箱是 DeepSeek 团队维护的 GitHub 项目,展示如何将 DeepSeek API 集成到各种流行软件中。项目列出了一系列支持 DeepSeek 的工具和应用,涵盖了...

Anus

Anus(Autonomous Networked Utility System)是 Manus 生成的开源自主智能体项目,复刻 Manus 的部分功能。Anus支持自然语言指令执行、多代理协作、网络交互...
阅读原文

绘蛙·创意文生图

绘蛙·创意文生图是阿里绘蛙推出的AI图像生成工具。基于提供详细的文本提示(Prompt),帮助用户生成具有特定风格、场景和氛围感的图像。绘蛙-创意文生图用精...
阅读原文

MeshPad

MeshPad 是基于草图输入的交互式艺术化网格生成与编辑工具,能将简单的二维草图迅速转化为高质量的 3D 网格模型,支持实时编辑。用户在草图上添加或删除线条...
阅读原文
15051525354233