AI项目和框架

ReSum

ReSum 是阿里通义推出的新型WebAgent 推理范式,隶属通义DeepResearch家族,能解决 WebAgent 在长视界任务中面临的上下文长度限制问题,通过周期性地对交互历...
阅读原文

Octofriend

Octofriend 是智能编程助手,能像贴心伙伴一样在 GPT-5、Claude 等大型语言模型(LLM)间自由切换,根据任务需求挑选最优模型。
阅读原文

InternVLA·N1

InternVLA·N1是上海人工智能实验室开源的端到端双系统导航大模型。采用双系统架构,系统2负责理解语言指令并规划长程路径,系统1专注于高频响应和敏捷避障。...
阅读原文

MCP Registry

MCP Registry 是 GitHub 推出的中心化平台,为开发者提供集中发现和安装 MCP 服务器。平台解决以往 MCP 服务器分散在多个注册中心、随机仓库和社区讨论中的问...
阅读原文

WebResearcher

WebResearcher是阿里巴巴自通义实验室推出的迭代式深度研究智能体,隶属通义DeepResearch家族,基于创新的迭代深度研究范式,模拟人类专家的认知工作流程,能...
阅读原文

WebWeaver

WebWeaver 是阿里巴巴通义团队推出的新型双智能体框架,隶属通义DeepResearch家族,用在开放性深度研究。WebWeaver 模拟人类研究过程,将任务分为规划(探索...
阅读原文

通义DeepResearch

通义DeepResearch 是阿里巴巴推出的开源深度研究智能体,专为长周期、深度信息检索任务设计。拥有 300 亿参数,每次激活 30 亿参数,支持 ReAct 模式和深度模...
阅读原文

InternVLA·M1

InternVLA·M1 是上海人工智能实验室开发的具身操作“大脑”,是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环,负责高阶的空间推...
阅读原文

VLAC

VLAC是上海人工智能实验室发布的具身奖励大模型。以InternVL多模态大模型为基础,融合互联网视频数据和机器人操作数据,为机器人在真实世界中的强化学习提供...
阅读原文

RustGPT

RustGPT 是用 Rust 编写的 Transformer 架构语言模型。RustGPT从零开始构建,不依赖任何外部机器学习框架,仅用 ndarray 进行矩阵运算。
阅读原文

PromptEnhancer

PromptEnhancer是腾讯混元团队开源的用在提升文本到图像(T2I)模型的提示重写框架,通过思维链(Chain-of-Thought,CoT)提示重写和专用的奖励模型AlignEval...
阅读原文

Nano Bananary

Nano Bananary(香蕉超市) 是开源的图像编辑工具,基于 Google Gemini 图像模型开发,支持中文界面和明暗主题切换,提供 50 多种图像转换效果,无需复杂提示...
阅读原文

InfiniteTalk

InfiniteTalk是美团视觉智能部推出的新型数字人驱动技术,通过稀疏帧video dubbing范式,仅需少量关键帧能驱动数字人人生成自然流畅的视频,解决传统技术中口...
阅读原文

LLaSO

LLaSO(Large Language and Speech Model)是北京深度逻辑智能科技有限公司推出的全球首个完全开源的语音模型,能解决大型语音语言模型(LSLM)领域长期存在...
阅读原文

Lumina-DiMOO

Lumina-DiMOO是上海人工智能实验室等机构开源的新一代多模态生成与理解模型。模型采用全离散扩散架构,统一处理文本、图像等多模态数据,支持文本到图像生成...
阅读原文
11314151617157