毛恺诚
首页
研究
博客
生活
简历
EN
中
博客
记录研究实践、技术工作、阅读和正在成形的想法。
2026年5月11日
/
15 min
GRPO 后训练数学推理:从 SFT 到 RL 的 Qwen3-0.6B 实验报告
基于 Qwen3-0.6B-Base,系统探索 SFT 到 GRPO 的后训练流程,通过奖励函数设计与 None 判别将数学推理准确率从 38.2% 提升至 55.2%。
GRPO
RL
后训练