毛恺诚头像

数据科学本科生@南方科技大学

我是一名数据科学本科生，关注深度学习、生成式模型、LLM 后训练与多源数据处理。

学术主页 / 个人档案

毛恺诚的个人主页

恺诚的双语空间，记录学习、研究项目和生活点滴。

广东深圳12311704@mail.sustech.edu.cn

查看研究阅读博客 CV

研究精选

最新文章

2026年5月11日/15 min

GRPO 后训练数学推理：从 SFT 到 RL 的 Qwen3-0.6B 实验报告

基于 Qwen3-0.6B-Base，系统探索 SFT 到 GRPO 的后训练流程，通过奖励函数设计与 None 判别将数学推理准确率从 38.2% 提升至 55.2%。

GRPORL后训练

生活札记

浏览生活札记

2026年4月18日/城市街道

漫长阅读周之后的周末散步

离开书桌一小会儿，再带着更清楚的脑子回来。