医疗领域检索式问答基准测试
用于衡量设备 AI 加速器推理性能的基准测试工具。
一种测试大语言模型在复杂社交博弈中智能性的基准测试框架,灵感来源于‘狼人杀’游戏。
用于多模态上下文中的检索增强生成的基准测试代码库。
综合表格数据学习工具箱和基准测试