毛恺诚
首页研究博客生活简历
EN中

博客

记录研究实践、技术工作、阅读和正在成形的想法。

2026年5月11日/15 min

GRPO 后训练数学推理:从 SFT 到 RL 的 Qwen3-0.6B 实验报告

基于 Qwen3-0.6B-Base,系统探索 SFT 到 GRPO 的后训练流程,通过奖励函数设计与 None 判别将数学推理准确率从 38.2% 提升至 55.2%。

GRPORL后训练

Archive

2026

使用 Next.js、MDX 与文件驱动内容工作流构建。

CVEmail