2026GRPO 数学推理后训练Featured系统探索 Qwen3-0.6B-Base 的 SFT 到 GRPO 后训练流程,通过奖励函数设计与 None 判别将数学推理准确率从 38.2% 提升至 55.2%。GRPORL后训练数学推理