AgentCPM-Explore
AgentCPM-Explore 是清华大学、中国人民大学、面壁智能和 OpenBMB 开源社区联合推出的开源智能体模型。模型基于仅 4B 参数,在多个长程任务评测基准上超越同...
Step-Audio-R1.1
Step-Audio-R1.1 是阶跃星辰推出的全球首个开源原生语音推理模型。模型以96.4%的准确率登顶全球权威语音推理榜单,超越众多一线模型。模型具备深度语音推理、...
MedGemma 1.5
MedGemma 1.5 是谷歌开源的多模态AI医学模型,专为处理医学影像和文本数据设计。模型支持高维医学影像(如CT和MRI)、全切片病理影像、纵向影像分析、解剖定...
OctoCodingBench
OctoCodingBench是MiniMax开源的针对Coding Agent的指令遵循能力的评测集。OctoCodingBench通过模拟真实软件开发场景,从系统约束、用户指令、项目规范、技能...
BabyVision
BabyVision是 UniPat AI团队推出的多模态理解评测集,评估多模态语言模型(MLLMs)和图像生成模型在视觉推理任务上的表现。包含两个主要赛道:MLLM评估和生成...
PixVerse R1
PixVerse R1 是爱诗科技(PixVerse)推出的全球首个通用实时世界模型,标志着AI视频生成从“预录制”迈向“实时动态生成”的重大突破。R1通过三大核心技术实现创...
Baichuan-M3
Baichuan-M3是百川智能正式发布的新一代开源医疗增强大语言模型。模型在问诊能力、医疗幻觉控制以及Healthbench和Healthbench Hard评测中均排名第一,超越了O...
Claude Cowork
Claude Cowork 是 Anthropic 推出的 AI 协作功能,支持将原本面向开发者的 Claude Code 能力拓展到日常办公场景。Claude Cowork支持用户授权 Claude 访问本地...
粤公网安备 44011502001135号