研究

在朋友们和 Codex、Claude Code 的帮助下

研究方向

代表项目

2026

GRPO 数学推理后训练

Featured

系统探索 Qwen3-0.6B-Base 的 SFT 到 GRPO 后训练流程,通过奖励函数设计与 None 判别将数学推理准确率从 38.2% 提升至 55.2%。

GRPORL后训练数学推理

2026

双语学术个人主页

Featured

使用 Next.js、MDX 和本地化内容文件构建的个人资料、写作与生活档案。

Next.jsMDX个人基础设施

2026

研究工作流笔记

持续整理关于读论文、设计实验和管理研究产物的工作方法。

写作工作流研究实践

论文与产出

报告与活动