AI项目和框架

NitroGen

NitroGen 是英伟达联合斯坦福大学、加州理工学院等机构开发的开源通用游戏 AI 模型。基于4万小时、涵盖1000多款游戏的视频数据进行训练,采用大规模行为克隆...
阅读原文

Qwen-Image-Layered

Qwen-Image-Layered是阿里团队推出的AI图像编辑模型,能将普通图片自动拆分为独立的RGB透明图层,实现类似Photoshop的分层编辑功能。通过注意力机制和位置编...
阅读原文

FunctionGemma

FunctionGemma 是谷歌开源的专注于函数调用优化的轻量化AI模型,参数量为 2.7 亿。模型基于 Gemma 3 架构,专为在手机、浏览器等端侧设备上运行而设计,能将...
阅读原文

T5Gemma 2

T5Gemma 2 是谷歌开源的新型端侧多模态长上下文编码器 - 解码器模型。模型回归优化了经典 Transformer 架构,引入绑定词嵌入和合并注意力机制等创新,参数规...
阅读原文

VTP

VTP(Visual Tokenizer Pre-training)是MiniMax视频团队开源的视觉生成模型预训练框架。框架聚焦优化视觉tokenizer,通过融合对比学习、自监督学习和重建学...
阅读原文

GPT-5.2-Codex

GPT-5.2-Codex 是 OpenAI 推出的智能体编码模型,专为复杂软件工程和防御性网络安全设计。模型是 GPT-5.2 的升级版,提升了指令遵循、长语境理解等能力,在代...
阅读原文

EcomBench

EcomBench 是通义实验室联合 SKYLENAGE 推出的针对电商场景的 AI 能力评测基准。EcomBench 基于真实世界数据构建,涵盖政策咨询、成本估算、选品决策等七大类...
阅读原文

Kairos 3.0

Kairos 3.0(开悟世界模型3.0)是大晓机器人推出的行业首创的ACE具身研发范式、首个开源且商业应用的世界模型。
阅读原文

TRELLIS.2

TRELLIS.2是微软开源的40亿参数3D生成模型,专为从单张图片高效生成高保真3D资产设计。核心创新在于采用O-Voxel稀疏体素架构,能处理复杂拓扑结构(如开放表...
阅读原文

Seed1.8

Seed1.8 是字节跳动推出的通用 Agent 大模型,具备强大的多模态能力,支持图文输入。模型集搜索、代码生成与 GUI 交互能力于一体,可在复杂工作流中高效完成...
阅读原文

SHARP

SHARP 是苹果开源的 AI 模型,能在不到 1 秒内将单张 2D 照片转换为逼真的 3D 场景。模型通过 3D 高斯表示技术,用神经网络单次前馈传递,快速预测出场景的 3...
阅读原文

Step-GUI

Step-GUI 是阶跃星辰推出的AI Agent系列模型,包含云侧模型 Step-GUI 和端侧模型 Step-GUI Edge。云侧模型擅长复杂任务处理,端侧模型轻量化,能在手机等本地...
阅读原文

SAM Audio

SAM Audio是Meta开源的音频分割模型,能通过文本、视觉和时间片段等多模态提示,从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovi...
阅读原文

Gemini 3 Flash

Gemini 3 Flash 是谷歌推出的高速、低成本的前沿智能模型。模型基于 Gemini 3 开发,性能显著提升,具备强大的推理能力和多模态理解能力。
阅读原文

A2UI

A2UI(Agent-to-User Interface)是谷歌开源的基于Agent的接口协议,用于AI与用户界面之间的交互。A2UI通过AI生成的JSON描述,让客户端原生渲染交互界面,无...
阅读原文
123161