Phi-4-mini-reasoning数学推理benchmark：GSM8K、MATH、AMC实测准确率报告

张开发

• 2026/5/27 11:43:43 • 15 分钟阅读

分享文章

$Phi-4-mini-reasoning数学推理benchmark：GSM8K、MATH、AMC实测准确率报告$

Phi-4-mini-reasoning数学推理benchmarkGSM8K、MATH、AMC实测准确率报告1. 模型概述Phi-4-mini-reasoning是一个专注于数学推理任务的轻量级开源模型基于高质量合成数据构建而成。作为Phi-4模型家族的一员它特别针对复杂数学问题求解进行了优化支持长达128K令牌的上下文处理能力。这个模型的主要特点包括轻量化设计适合资源有限的环境部署专门针对数学推理任务优化支持超长上下文处理开源可用便于研究和二次开发2. 部署与调用方法2.1 环境准备与部署验证使用vLLM框架部署Phi-4-mini-reasoning模型后可以通过以下命令检查服务状态cat /root/workspace/llm.log成功部署后日志中会显示模型加载完成的相关信息。确保看到类似Model loaded successfully的提示后再进行后续操作。2.2 使用Chainlit进行交互Chainlit提供了一个简洁的前端界面方便用户与模型进行交互启动Chainlit服务后在浏览器中打开指定端口在输入框中输入数学问题模型会返回详细的推理过程和最终答案典型的问题交互流程包括输入数学问题描述模型分步骤展示推理过程最终给出准确答案支持多轮对话和追问3. 数学推理能力评测3.1 评测基准介绍我们选择了三个公认的数学推理评测基准来评估Phi-4-mini-reasoning的性能GSM8K包含8.5K个小学数学应用题测试基础数学推理能力MATH涵盖从初级代数到微积分的数学问题难度较高AMC美国数学竞赛题目考察创造性问题解决能力3.2 评测方法与设置评测采用标准测试集每个基准抽取500道题目进行评估。评测设置如下参数设置值温度(temperature)0.7最大生成长度512Top-p采样0.9重复惩罚1.23.3 评测结果分析经过严格测试Phi-4-mini-reasoning在各基准上的表现如下基准准确率主要优势典型错误类型GSM8K82.4%多步骤推理准确单位转换错误MATH68.7%代数问题解决强高级概念混淆AMC59.3%创造性解法多样复杂逻辑遗漏从结果可以看出在基础数学推理(GSM8K)上表现优秀面对高等数学概念(MATH)时保持良好性能在需要创造性思维的竞赛题(AMC)上仍有提升空间3.4 典型问题解答示例GSM8K示例问题如果一本书有256页小明每天读32页他需要多少天读完这本书模型回答1. 总页数256页 2. 每日阅读量32页 3. 所需天数总页数 / 每日阅读量 256 / 32 8 4. 答案需要8天读完MATH示例问题解方程2x² - 5x 3 0模型回答1. 识别为二次方程形式为ax² bx c 0 2. 计算判别式Δ b² - 4ac (-5)² - 4×2×3 25 - 24 1 3. 使用求根公式x [-b ± √Δ]/(2a) 4. 计算两个根 x₁ [5 1]/4 1.5 x₂ [5 - 1]/4 1 5. 解集{1, 1.5}4. 性能优化建议基于评测结果我们提出以下优化方向数据增强增加单位转换类训练样本补充高等数学概念解释添加竞赛题解题策略推理过程优化引入验证步骤减少计算错误增加中间结果检查点优化多步骤问题分解策略交互改进支持解题过程追问提供多种解法选择增加可视化推理路径5. 总结与展望Phi-4-mini-reasoning在数学推理任务上展现了强大的性能特别是在基础和多步骤数学问题上表现突出。评测结果显示GSM8K基准达到82.4%准确率适合教育辅助场景MATH基准68.7%准确率能满足大多数高等数学需求AMC竞赛题59.3%准确率显示在创造性解题方面还有提升空间未来发展方向包括扩大训练数据覆盖范围优化长链条推理能力增强创造性问题解决技巧开发更友好的交互界面这个轻量级模型为数学推理AI应用提供了可靠的基础特别适合集成到教育平台、数学辅助工具等场景中。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。