AI项目和框架

TurboDiffusion

TurboDiffusion 是清华大学、生数科技和加州大学伯克利分校联合推出的视频生成加速框架。框架通过 SageAttention、SLA(稀疏线性注意力)和 rCM(时间步蒸馏...
阅读原文

Seed Prover 1.5

Seed Prover 1.5 是字节跳动 Seed 团队推出的新一代形式化数学推理模型。模型采用创新的 Agentic Prover 架构,通过大规模强化学习(Agentic RL)训练,显著...
阅读原文

MedASR

MedASR 是 Google 推出的专注于医学领域的语音识别模型,基于 Conformer 架构,拥有 105M 参数。模型通过大量医学语音数据(约 5000 小时)进行预训练,涵盖...
阅读原文

Fun-Audio-Chat

Fun-Audio-Chat是阿里云通义百聆团队开源的新一代端到端语音交互模型,具备语音理解、情感感知和任务执行能力。模型采用双分辨率设计,通过5Hz和25Hz帧率协同...
阅读原文

MiniMax M2.1

MiniMax M2.1 是 MiniMax推出的多语言编程AI 模型。模型系统性提升了 Rust、Java、Golang 等多语言能力,覆盖从底层到应用层开发。
阅读原文

PromptFill

PromptFill是专为AI绘画设计的结构化提示词生成工具,通过可视化填空交互帮助用户快速构建复杂Prompt。解决了传统提示词记忆过载、语法混乱和复用性差的问题...
阅读原文

GLM-4.7

GLM-4.7 是智谱AI推出的开源模型,专注于提升编码能力、推理能力和工具协同。模型在多语言编程、复杂任务规划、前端设计美学等方面表现出色,支持多种编程框...
阅读原文

NitroGen

NitroGen 是英伟达联合斯坦福大学、加州理工学院等机构开发的开源通用游戏 AI 模型。基于4万小时、涵盖1000多款游戏的视频数据进行训练,采用大规模行为克隆...
阅读原文

Qwen-Image-Layered

Qwen-Image-Layered是阿里团队推出的AI图像编辑模型,能将普通图片自动拆分为独立的RGB透明图层,实现类似Photoshop的分层编辑功能。通过注意力机制和位置编...
阅读原文

FunctionGemma

FunctionGemma 是谷歌开源的专注于函数调用优化的轻量化AI模型,参数量为 2.7 亿。模型基于 Gemma 3 架构,专为在手机、浏览器等端侧设备上运行而设计,能将...
阅读原文

T5Gemma 2

T5Gemma 2 是谷歌开源的新型端侧多模态长上下文编码器 - 解码器模型。模型回归优化了经典 Transformer 架构,引入绑定词嵌入和合并注意力机制等创新,参数规...
阅读原文

VTP

VTP(Visual Tokenizer Pre-training)是MiniMax视频团队开源的视觉生成模型预训练框架。框架聚焦优化视觉tokenizer,通过融合对比学习、自监督学习和重建学...
阅读原文

GPT-5.2-Codex

GPT-5.2-Codex 是 OpenAI 推出的智能体编码模型,专为复杂软件工程和防御性网络安全设计。模型是 GPT-5.2 的升级版,提升了指令遵循、长语境理解等能力,在代...
阅读原文

EcomBench

EcomBench 是通义实验室联合 SKYLENAGE 推出的针对电商场景的 AI 能力评测基准。EcomBench 基于真实世界数据构建,涵盖政策咨询、成本估算、选品决策等七大类...
阅读原文

Kairos 3.0

Kairos 3.0(开悟世界模型3.0)是大晓机器人推出的行业首创的ACE具身研发范式、首个开源且商业应用的世界模型。
阅读原文
123162