AutoCodeBench

AutoCodeBench – 腾讯混元开源测评大模型代码能力的数据集

AutoCodeBench：腾讯混元推出的权威大模型代码能力评测集，以其高难度、实用性、多语言覆盖（20种语言，3920个问题）和自动化生成流程，成为衡量大模型跨语言编程功底的标杆。

AutoCodeBench，由腾讯混元倾力打造，是一套专门用于评估大型语言模型（LLM）代码生成能力的基准测试集。这套测试集共包含3920道精心设计的题目，并广泛覆盖了20种不同的编程语言，力求全面、客观地衡量大模型在多语言编程场景下的表现。其核心优势在于题目难度高、贴近实际应用且具备高度多样性，能够精准地揭示模型在复杂编码任务中的潜能与瓶颈。

该基准测试集通过创新的自动化工作流来生成数据，从而确保了数据的品质与广泛的覆盖度。为了满足不同评估需求，AutoCodeBench 还提供了两个关键版本：AutoCodeBench-Lite，旨在放大不同模型间的性能差异，便于用户进行细致的对比分析；以及AutoCodeBench-Complete，该版本利用3-shot提示策略，专注于评估基础模型的代码生成能力。

AutoCodeBench 的核心优势

全方位多语言代码能力评测：凭借3920个涵盖20种编程语言的问题，AutoCodeBench为大模型的多语言代码生成能力提供了无与伦比的评估广度。
挑战性基准测试设计：支持设定高难度的编程挑战，能有效识别和暴露大模型在处理复杂编程任务时可能存在的局限性。
性能差异的精准放大：通过构建精选的AutoCodeBench-Lite版本，能够显著区分不同模型之间的细微性能差异，为模型选型和优化提供清晰的依据。
基础模型性能深度洞察：AutoCodeBench-Complete版本，借助3-shot提示，为评估基础模型的原生代码生成实力量身定制。
自动化高效数据生成：利用先进的LLM技术生成测试输入，并结合沙盒环境获取输出，实现高质量、多语言代码生成数据的自动化生产。
多语言代码执行验证服务：集成MultiLanguageSandbox服务，支持超过30种编程语言的编译与执行，确保生成代码的正确性得到严谨验证。

AutoCodeBench 的技术基石

智能化数据生成流程：AutoCodeGen技术利用大语言模型（LLM）生成测试输入，并将其输入至沙盒环境中执行，捕获测试输出，从而构建出高质量的测试函数。通过逆向工程的方式构造编程问题，确保了生成问题的难度与多样性。此外，多种数据过滤策略的运用，进一步提升了数据的质量、难度和实用性。
强大的多语言支持能力：AutoCodeBench将3920个问题均匀分布在20种编程语言中，保证了每种语言都有充足的评估样本，避免了因语言分布不均而导致的评估偏差。而MultiLanguageSandbox服务则支持30余种编程语言的编译和执行，能够精确验证生成代码在不同语言环境下的正确性和性能，确保模型在多元语言环境下的表现得到准确评估。
兼顾高难度与实用性：通过逆向构造问题和精细化的策略过滤，AutoCodeBench生成的题目具有较高的难度，能够有效评估模型在复杂编程任务中的表现。这些题目不仅难度适中，更重要的是具有实际应用价值，能够真实反映现实编程场景中的复杂挑战，从而帮助模型更好地适应实际应用需求。