Qwen-Image-Layered

Qwen-Image-Layered是阿里团队推出的AI图像编辑模型,能将普通图片自动拆分为独立的RGB透明图层,实现类似Photoshop的分层编辑功能。通过注意力机制和位置编...
阅读原文

NeverCap

NeverCap 是创新的 AI 转录工具,专为需要大量音频或视频转录的用户设计。提供真正无限的转录服务,无月度分钟数限制,用户可以一次性上传多达 50 个文件,每...
阅读原文

Bandy AI

Bandy AI 是专为电商打造的智能创意平台,借助先进的 AI 技术,将产品瞬间转化为极具吸引力的视觉内容。平台提升了内容创作的效率,让品牌能够快速制作出高质...
阅读原文

FunctionGemma

FunctionGemma 是谷歌开源的专注于函数调用优化的轻量化AI模型,参数量为 2.7 亿。模型基于 Gemma 3 架构,专为在手机、浏览器等端侧设备上运行而设计,能将...
阅读原文

扣子编程

扣子编程是字节跳动推出的 AI 应用开发平台,通过自然语言描述需求,快速生成智能体、工作流和网页应用。平台提供开箱即用的云端开发环境,无需安装工具,支...
阅读原文

T5Gemma 2

T5Gemma 2 是谷歌开源的新型端侧多模态长上下文编码器 - 解码器模型。模型回归优化了经典 Transformer 架构,引入绑定词嵌入和合并注意力机制等创新,参数规...
阅读原文

VTP

VTP(Visual Tokenizer Pre-training)是MiniMax视频团队开源的视觉生成模型预训练框架。框架聚焦优化视觉tokenizer,通过融合对比学习、自监督学习和重建学...
阅读原文

GPT-5.2-Codex

GPT-5.2-Codex 是 OpenAI 推出的智能体编码模型,专为复杂软件工程和防御性网络安全设计。模型是 GPT-5.2 的升级版,提升了指令遵循、长语境理解等能力,在代...
阅读原文

MegaLLM

MegaLLM 是为开发者提供统一API接口的人工智能平台,可快速接入70多个主流大语言模型(LLMs),如GPT-5、Claude、Gemini、Llama等。通过一个API密钥,让开发...
阅读原文

EcomBench

EcomBench 是通义实验室联合 SKYLENAGE 推出的针对电商场景的 AI 能力评测基准。EcomBench 基于真实世界数据构建,涵盖政策咨询、成本估算、选品决策等七大类...
阅读原文

Kairos 3.0

Kairos 3.0(开悟世界模型3.0)是大晓机器人推出的行业首创的ACE具身研发范式、首个开源且商业应用的世界模型。
阅读原文

TRELLIS.2

TRELLIS.2是微软开源的40亿参数3D生成模型,专为从单张图片高效生成高保真3D资产设计。核心创新在于采用O-Voxel稀疏体素架构,能处理复杂拓扑结构(如开放表...
阅读原文

Seed1.8

Seed1.8 是字节跳动推出的通用 Agent 大模型,具备强大的多模态能力,支持图文输入。模型集搜索、代码生成与 GUI 交互能力于一体,可在复杂工作流中高效完成...
阅读原文

SHARP

SHARP 是苹果开源的 AI 模型,能在不到 1 秒内将单张 2D 照片转换为逼真的 3D 场景。模型通过 3D 高斯表示技术,用神经网络单次前馈传递,快速预测出场景的 3...
阅读原文

Step-GUI

Step-GUI 是阶跃星辰推出的AI Agent系列模型,包含云侧模型 Step-GUI 和端侧模型 Step-GUI Edge。云侧模型擅长复杂任务处理,端侧模型轻量化,能在手机等本地...
阅读原文
1456781,594