Math24o – SuperCLUE 开源的高中奥数竞赛推理测评基准

58 0

Math24o是首个针对高中奥数竞赛的中文大模型测评基准，通过标准化提示词要求模型将最终答案放入格式，配合自动化评估脚本，可客观量化不同模型在复杂数学推理任务上的表现。通过格式强制规范输出，程序自动比对参考答案。

Math24o是什么

Math24o 是中文大模型测评基准 SuperCLUE 开源的高中奥林匹克数学竞赛级别的数学推理测评基准。主要用于评估大型语言模型在数学推理方面的能力。使用2024年全国高中数学竞赛的部分预赛试题，包含21道高难度解答题，答案唯一且为整数或小数。测评通过程序自动判断模型答案与参考答案是否一致，以客观评估模型的正确率。测评基准能有效衡量语言模型在解决复杂数学问题时的表现，为相关研究和开发提供了有力的工具。

Math24o的主要功能

高难度数学问题测评：Math24o 使用2024年全国高中数学竞赛的预赛试题，包含21道高难度的解答题，题目类型涵盖函数、数列、几何等多个数学领域，能全面评估模型在高中数学竞赛中的推理能力。
答案唯一性与客观评估：所有测评题目的最终答案都是唯一的，且必须是整数或小数，确保了测评的公正性和可靠性。通过程序自动判断模型答案与参考答案是否一致，客观地评估模型的正确率。
自动化评估流程：Math24o 提供了自动化评估工具，用户可以将模型的回答保存到指定文件中，通过运行Python脚本自动获取模型的平均得分和每道题目的详细评估结果。
为模型研发提供参考：测评基准为未来模型的研发提供参考，帮助开发者了解模型在复杂数学任务中的表现，推动模型在数学推理能力上的进一步提升。

Math24o的技术实现

技术实现：Math24o 的技术实现基于 Python 编程语言，通过编写特定的脚本来实现自动化评估功能。使整个评估过程更加高效和标准化，减少了人为干预的可能性。

Math24o的项目地址

Github仓库：https://github.com/CLUEbenchmark/Math24o

Math24o的模型性能评估与对比

从测试结果可以看出，o3-mini(high) 表现最为出色，得分最高，达到了85.71分，其他模型如QwQ-32B和DeepSeek-R1等得分相对较低，分别为66.67分和57.14分，表明当前大模型在高中奥数领域的性能仍有提升空间。

排名	模型	机构	总分	使用方式	发布日期
1	o3-mini(high)	OpenAI	85.71	API	2025.03.12
2	Gemini-2.0-Flash-Thinking-Exp-01-21	Google	71.43	API	2025.03.12
3	QwQ-Max-Preview	阿里云	66.67	官网	2025.03.12
3	QwQ-32B	阿里云	66.67	模型	2025.03.12
3	o1	OpenAI	66.67	API	2025.03.12
4	DeepSeek-R1	深度求索	57.14	API	2025.03.12
4	Claude 3.7 Sonnet	Anthropic	57.14	POE	2025.03.12

Math24o的应用场景

教育领域：Math24o 为教育领域提供了评估和提升学生数学能力的工具。通过使用高中奥林匹克数学竞赛级别的题目，能帮助教师和教育研究者了解学生在复杂数学问题上的推理能力和解题技巧。
学术研究：在学术研究中，Math24o 可以作为评估和比较不同大型语言模型（LLMs）数学推理能力的基准。研究人员可以用基准来衡量模型在解决复杂数学问题时的表现，推动模型性能的提升和优化。
模型开发与优化：Math24o 为开发和优化大型语言模型提供了重要的参考。测试模型在高中奥林匹克数学竞赛题目上的表现，开发者可以更好地理解模型的优势和不足，调整模型的架构和训练策略，提高模型在数学推理任务中的性能。
智慧校园建设：Math24o 可以作为智慧校园建设的一部分，帮助学校评估和提升学生的数学能力。
教育资源整合：Math24o 的题目和评估工具可以整合到教育资源平台中，为学生和教师提供丰富的学习和教学资源