AI项目和框架

Open Code Review

Open Code Review 是阿里巴巴开源的 AI 代码审查 CLI 工具,源自集团内部服务数万名开发者、执行超百万次审查任务的生产级实践。
阅读原文

PlanningBench

PlanningBench 是腾讯混元团队联合中国人民大学高瓴人工智能学院等机构推出的开源框架,专注于大语言模型的规划能力评测与训练。
阅读原文

Magenta RealTime 2

Magenta RealTime 2(MRT2)是谷歌 Magenta 团队推出的第二代开源本地实时音乐生成模型。MRT2 基于逐帧生成架构,每帧 40 毫秒,实现约 200 毫秒的实际控制延...
阅读原文

html-video

html-video 是 OpenDesign 团队(nexu.io)开源的HTML版剪映,基于 hyperframes 框架构建。工具让 Agent 通过写 HTML 可生成世界级水准的产品宣传、知识解说...
阅读原文

PawBench

PawBench 是通义实验室推出的通用智能体评测基准,面向个人助理与 Agent 场景,将底座模型与运行框架(Harness)纳入同一评测体系。
阅读原文

Gemma 4 12B

Gemma 4 12B是谷歌开源的多模态大模型,采用业界首个无编码器统一架构,视觉和音频数据直接输入LLM主干,彻底砍掉独立编码器。
阅读原文

BrowserAct Skills

BrowserAct Skills 是面向 AI Agent 的浏览器自动化 CLI 工具,能解决 Agent 操控浏览器时的核心痛点,无 Cookie 环境、反爬拦截、验证码阻断、人机协作断层等。
阅读原文

Microsoft Scout

Microsoft Scout 是微软推出的 AI 个人助手,基于 OpenClaw 开源技术构建。工具拥有独立 Entra 身份,可在后台持续自主运行,无需用户逐次触发。
阅读原文

JoyAI-Echo

JoyAI-Echo 是京东推出的开源长音视频生成框架,专为分钟级多镜头故事生成设计。框架通过跨模态记忆库、记忆驱动后训练、Director Agent 对话式编辑和轻量化...
阅读原文

Ideogram 4

Ideogram 4 是 Ideogram 推出的首个开源文本到图像生成模型,拥有 93 亿参数,从头训练非基于现有模型微调。模型专为高质量图像生成而设计,尤其在设计、营销...
阅读原文

PaddleOCR-VL-1.6

PaddleOCR-VL-1.6 是百度飞桨团队推出的文档解析视觉语言模型(VLM),是 PaddleOCR-VL 系列的最新升级版本。
阅读原文

Bernini

Bernini 是字节跳动开源的统一视频生成与编辑框架,采用MLLM 语义规划 + DiT 视觉渲染的两阶段解耦架构。多模态大模型理解指令并规划语义草图,由 Diffusion ...
阅读原文

Science Skills

Science Skills 是谷歌 DeepMind 推出的开源科学技能集合,专为加速 AI Agent 驱动的科学研究工作流设计。工具整合 AlphaGenome、AlphaFold Database、UniPro...
阅读原文

MAI-Thinking-1

MAI-Thinking-1 是微软推出的首款自研高级推理模型。模型采用 35B 活跃参数 / 约 1T 总参数的稀疏 MoE 架构,完全基于干净、商业授权数据从头训练,未使用任...
阅读原文

MAI Transcribe-1.5

MAI-Transcribe-1.5 是 微软 AI 团队自研的语音转文本模型,支持 43 种语言,具备上下文感知的关键词偏置能力,模型在 FLEURS 基准测试中取得行业最低的词错...
阅读原文
123195