数据科学 本科生@南方科技大学
我是一名数据科学本科生,关注深度学习、生成式模型、LLM 后训练与多源数据处理。
学术主页 / 个人档案
恺诚的双语空间,记录学习、研究项目和生活点滴。
基于 Qwen3-0.6B-Base,系统探索 SFT 到 GRPO 的后训练流程,通过奖励函数设计与 None 判别将数学推理准确率从 38.2% 提升至 55.2%。
离开书桌一小会儿,再带着更清楚的脑子回来。