毛恺诚
首页研究博客生活简历
EN中
毛恺诚头像

数据科学 本科生@南方科技大学

我是一名数据科学本科生,关注深度学习、生成式模型、LLM 后训练与多源数据处理。

学术主页 / 个人档案

毛恺诚的个人主页

恺诚的双语空间,记录学习、研究项目和生活点滴。

广东深圳12311704@mail.sustech.edu.cn
查看研究阅读博客CV

研究精选

查看全部

最新文章

查看全部
2026年5月11日/15 min

GRPO 后训练数学推理:从 SFT 到 RL 的 Qwen3-0.6B 实验报告

基于 Qwen3-0.6B-Base,系统探索 SFT 到 GRPO 的后训练流程,通过奖励函数设计与 None 判别将数学推理准确率从 38.2% 提升至 55.2%。

GRPORL后训练

生活札记

浏览生活札记
2026年4月18日/城市街道

漫长阅读周之后的周末散步

离开书桌一小会儿,再带着更清楚的脑子回来。

散步日常

使用 Next.js、MDX 与文件驱动内容工作流构建。

CVEmail