General365 – 美团 LongCat 团队开源的通用推理评测基准
General365:重塑通用推理评测的标杆
在人工智能飞速发展的浪潮中,大模型在各项任务上展现出惊人的潜力。然而,其真实的逻辑推理能力,尤其是在日常场景下的通用性,却鲜有得到精确的衡量。美团 LongCat 团队应运而生,开源了 General365——一个旨在深入剖析大模型通用推理水平的全新评测基准。它不仅包含 365 道精心原创的“种子”题目,更衍生出 1095 个变化多端的题目变体,全方位覆盖了八大核心推理挑战维度。
General365 的独特之处
General365 的设计理念是将大模型的推理能力与其对专业知识的依赖进行有效剥离。为此,它将所有背景知识严格限定在 K-12 教育水平,从而更真实地反映模型在处理日常事务中的逻辑思辨能力。令人警醒的是,在一项针对 26 款主流大模型的实测中,仅有 Gemini 3 Pro 勉强跨过 60% 的及格线,准确率达到了 62.8%,绝大多数模型则在此基准下表现。
General365 的核心能力概览
- 海量且多样的评测集:由 365 道人工原创种子题拓展而来的 1095 个变体,构建了一个极其丰富的评测体系。这套体系巧妙地融入了复杂约束、分支枚举、时空推理、递归回溯、语义干扰、隐式信息、最优策略以及概率不确定性等八个关键的推理难题。
- 推理与知识的清晰界限:通过将知识背景限制在 K-12 范畴,General365 能够纯粹地考察模型的逻辑推演能力,而非其知识检索的广度。
- 严谨且智能的评分机制:该基准采用了规则评分与模型评分(借助 GPT-4.1)相结合的混合评分系统,经过人工复核,评分准确率高达 99.6%,确保了评测的可靠性。
- 公开与隐藏的测试策略:为了防止数据污染,General365 采取了部分公开的策略,目前已开放 180 道种子题及其变体(共 720 题),其余题目则作为隐藏测试集,以保持评测的公正性。
- 全面的模型横向对比:General365 支持对包括 OpenAI、Gemini、Anthropic、DeepSeek、Qwen、GLM、Kimi、LongCat 在内的 26 款以上主流大模型进行标准化的推理能力评估。
General365 的技术基石
- 八大维度构筑通用推理图谱:通用推理被细致地分解为八个核心挑战类型,每道题目至少对应其中一个维度,而近 70% 的题目更是兼具两个或以上维度的特性,从而构建了一个全方位的推理能力评估框架。
- 杜绝模板化与死记硬背:通过 t-SNE 语义分布分析以及 Gemini 3 Pro 推理路径的相似度评分,General365 严密地保证了题目的逻辑性,有效防止了模型通过“背模板”来获取高分的情况。
- 精益求精的题目生成与筛选:所有题目都经历了严格的难度筛选、多样性拓展、模型辅助扩题以及细致的人工审核,最终汇聚成 1460 道高质量的评测题目。
- 创新的混合评分框架:对于数值型题目,利用 math-verify 工具进行精确解析验证;而选择题和文本题则交由 GPT-4.1 进行智能评分。
General365 的突出优势
- 直击真实推理本质:与 AIME、IMO 等学科竞赛评测不同,General365 聚焦于日常生活中普遍存在的逻辑推理能力,精准地揭示了大模型“高分低能”的潜在短板。
- 卓越的区分度:即便是最先进的模型,在 General365 下也只能勉强及格,这有效解决了现有基准(如 BBH、BBEH)性能趋于饱和、难以区分模型优劣的问题。
- 经得起考验的多样性与性:其题目在语义分布上均匀分散,逻辑性远超 BBH 和 BBEH 等现有基准,确保了评测的深度和广度。
- 开放与可复现的社区生态:GitHub 仓库提供了完整的评测代码,极大地便利了社区成员的快速接入和结果复现,促进了通用推理领域的研究进展。
General365 的项目资源一览
- 官方网站:https://general365.github.io/
- GitHub 仓库:https://github.com/meituan-longcat/General365
- HuggingFace 模型库:https://huggingface.co/datasets/meituan-longcat/General365_Public
- arXiv 技术论文:https://arxiv.org/pdf/2604.11778
General365 与同类竞品的深度比较
| 维度 | General365 | BBH (Big-Bench Hard) | BBEH (Big-Bench Extra Hard) |
|---|---|---|---|
| 评测重点 | 通用推理(K-12 知识范围) | 综合任务推理 | 高难度综合任务 |
| 题目数量 | 365 种子题 + 1095 变体 | 23 个任务集 | 多项任务的扩展 |
| 多样性 | 极高(语义分布均匀,逻辑性强) | 较低(存在明显的聚集现象) | 较低(模板化现象较为严重) |
| 难度区分度 | 高(SOTA 模型准确率仅 62.8%) | 低(模型性能已趋于饱和) | 中等 |
| 评分方式 | 混合评分(规则+模型,准确率 99.6%) | 以规则评分为主 | 以规则评分为主 |
| 数据公开策略 | 半公开(180 题公开 + 隐藏测试集) | 全部公开 | 全部公开 |
General365 的广泛应用场景
- 赋能大模型研发与优化:帮助模型开发者精准定位其推理能力的薄弱环节,例如在复杂约束、语义干扰或最优策略等方面的不足,从而进行有针对性的改进。
- 指导模型选型决策:为企业用户在选择性能更优的商用或开源模型时,提供客观、量化的数据支持,助力做出明智的决策。
- 推动通用推理领域的学术研究:为通用推理的研究提供了一个标准化的评测工具,有力地推动着大语言模型从“学科专家”向真正的“通用推理者”的转变。
- 深度分析推理效率:支持用户分析模型的准确率与其输出 token 数量之间的关系,从而评估模型的推理效率,为模型部署提供参考。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



粤公网安备 44011502001135号