研究 | 毛恺诚

研究

在朋友们和 Codex、Claude Code 的帮助下

2026

Featured

系统探索 Qwen3-0.6B-Base 的 SFT 到 GRPO 后训练流程，通过奖励函数设计与 None 判别将数学推理准确率从 38.2% 提升至 55.2%。

GRPORL后训练数学推理

2026

Featured

使用 Next.js、MDX 和本地化内容文件构建的个人资料、写作与生活档案。

Next.jsMDX个人基础设施

2026

持续整理关于读论文、设计实验和管理研究产物的工作方法。

写作工作流研究实践