Self-Distillation 压制不确定性表达导致推理退化 40% — epistemic verbalization 是被忽视的训练信号
看到了什么
在同样正确的训练轨迹上做 SFT,一组来自 unguided generation(模型自己想的),另一组来自 solution-guided generation(给了正确答案后模型再写的)——后者让 AIME24 从 54.79% 暴跌到 20.21%。两组的答案都是对的,唯一的区别是推理过程中"wait"、“hmm”、"perhaps"这些不确定性标记的密度。
Microsoft Research 的这篇论文 [Self-Distillation Analysis] 系统性地揭示了这个现象。
为什么这重要
这挑战了 post-training 中一个隐含的假设:如果轨迹导向正确答案,那么这个轨迹就是好的训练信号。实际上不是。轨迹的"推理风格"——特别是不确定性的表达方式——是一个独立于答案正确性的关键信号维度。
核心发现
1. 信息丰富度与不确定性表达的单调关系
论文设计了 4 级 conditioning context,从无信息到完整 solution:
| 设置 | 平均长度 | Epistemic Token 数量 | 准确率 |
|---|---|---|---|
| Unguided (c=∅) | 13,054 | 182.5 | 0.30 |
| Solution-Guided (c=s) | 1,873 | 8.8 | 0.98 |
| Solution w/o think | 12,036 | 159.8 | 0.78 |
| Regeneration-Conditioned | 2,808 | 24.1 | 0.95 |
关键观察:conditioning context 越丰富,模型输出越短、越自信、不确定性表达越少。这本身不奇怪。但问题在于,当你用这些"自信的轨迹"去训练另一个没有额外上下文的模型时,模型学会了假装自信——它模仿了一种预设了推理时不可用信息的推理风格。

2. On-policy Self-Distillation 的系统性退化
在 DAPO-Math-17k 上用 SDPO(self-distillation)对比 GRPO:
- DeepSeek-R1-Distill-Qwen-7B: AIME24 从 54.7% 降到 ~14%(SDPO with c=s),而 GRPO 微升到 56%
- Qwen3-8B (Thinking ON): SDPO 同样退化
- Qwen3-8B (Thinking OFF): GRPO 快速增长(通过增加 epistemic verbalization),SDPO 几乎不增长

GRPO 的效果来源于增加 epistemic verbalization(模型学会在不确定时表达不确定),而 SDPO 的效果来源于压制它。
3. Task Coverage 是调节因子
Epistemic verbalization 的价值取决于 task diversity:
- 小 |D|(1~128 个问题):SDPO 快速收敛,效率高于 GRPO,因为任务重复,不需要表达不确定性
- 大 |D|(512+):SDPO 开始退化,因为任务多样性增加,模型需要不确定性表达来处理未见问题

这解释了为什么 SDPO 在 Chemistry(6 种问题类型,高重复)和 LiveCodeBench(131 题,训练=测试)上效果好,但在 Math(14000 题,OOD 评估)上崩溃。
4. Moving Target Teacher 放大退化
固定 teacher(EMA rate=0)比动态更新的 teacher(EMA rate=0.05)效果好。原因:动态更新形成正反馈环 —— 模型输出越自信 → teacher 用更自信的模型 → 更压制不确定性 → 更自信的输出。
对 Post-training 五维度框架的意义
这篇论文揭示的机制不完全属于已有的五个维度中任何一个,但和多个维度有交叉:
| 已有维度 | 与本文的关系 |
|---|---|
| 维度2: 分布匹配 | SDPO 是 on-policy 的,所以分布匹配问题不大。退化来自另一个来源 |
| 维度3: 训练格式 | Epistemic verbalization 压制可以看作一种"格式负迁移"——模型学了不该学的推理风格 |
| 维度5: 行为 repertoire | GRPO 增加 repertoire(学会表达不确定性),SDPO 减少 repertoire |
关键洞察:这可能是第六个维度——推理风格的信息完整性。即使答案正确、格式正确、分布匹配,如果推理过程中丢失了"我不确定"这个信号,泛化就会退化。
但我对此保持谨慎。它也可以被归入现有维度:
- 归入维度5:不确定性表达是 behavior repertoire 的一部分,SDPO 压缩了这部分 repertoire
- 归入维度3:solution-guided 轨迹是一种"错误的训练格式",因为它预设了推理时不可用的信息
最诚实的判断:这是维度3和维度5的交叉区域,而非独立的第六个维度。它精确化了"训练格式"的含义——不只是 MCQA vs CoT 的区别,还包括推理轨迹中不确定性表达的密度。
批判
- Epistemic tokens 的定义很粗糙:只用 10 个关键词(wait, hmm, perhaps 等)来近似不确定性表达。这些词可能只是表面标记,真正的不确定性可能隐含在更微妙的模式中
- 因果 vs 相关:不确定性表达减少和性能退化是同时发生的,但论文没有做直接的因果实验(如:强制保留 epistemic tokens 的同时做 distillation)
- 数学特殊性:论文承认在 Chemistry 和 Code 上 SDPO 是有效的。Math 的特殊性可能在于其 task diversity 特别高,而非 epistemic verbalization 的通用重要性
- 模型规模:所有实验在 7-8B 模型上。论文自己也提到"smaller models with limited parametric knowledge"更依赖 epistemic verbalization。大模型可能不需要
实用启示
如果你要做 self-distillation:
- 低 task diversity 场景(化学、特定代码竞赛):SDPO 有效
- 高 task diversity 场景(通用数学推理):小心 epistemic verbalization 压制
- 固定 teacher 优于 moving target teacher
- 考虑用 c=s\think(只给答案不给思考过程)来减轻压制效果
来源: Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?, Microsoft Research, 2026-03-25