博客 | 毛恺诚

博客

记录研究实践、技术工作、阅读和正在成形的想法。

基于 Qwen3-0.6B-Base，系统探索 SFT 到 GRPO 的后训练流程，通过奖励函数设计与 None 判别将数学推理准确率从 38.2% 提升至 55.2%。