Self-Distillation 压制不确定性表达导致推理退化 40% — epistemic verbalization 是被忽视的训练信号

看到了什么

在同样正确的训练轨迹上做 SFT，一组来自 unguided generation（模型自己想的），另一组来自 solution-guided generation（给了正确答案后模型再写的）——后者让 AIME24 从 54.79% 暴跌到 20.21%。两组的答案都是对的，唯一的区别是推理过程中"wait"、“hmm”、"perhaps"这些不确定性标记的密度。

Microsoft Research 的这篇论文 [Self-Distillation Analysis] 系统性地揭示了这个现象。

为什么这重要

这挑战了 post-training 中一个隐含的假设：如果轨迹导向正确答案，那么这个轨迹就是好的训练信号。实际上不是。轨迹的"推理风格"——特别是不确定性的表达方式——是一个独立于答案正确性的关键信号维度。

核心发现

1. 信息丰富度与不确定性表达的单调关系

论文设计了 4 级 conditioning context，从无信息到完整 solution：

设置	平均长度	Epistemic Token 数量	准确率
Unguided (c=∅)	13,054	182.5	0.30
Solution-Guided (c=s)	1,873	8.8	0.98
Solution w/o think	12,036	159.8	0.78
Regeneration-Conditioned	2,808	24.1	0.95

关键观察：conditioning context 越丰富，模型输出越短、越自信、不确定性表达越少。这本身不奇怪。但问题在于，当你用这些"自信的轨迹"去训练另一个没有额外上下文的模型时，模型学会了假装自信——它模仿了一种预设了推理时不可用信息的推理风格。

Epistemic token分析

2. On-policy Self-Distillation 的系统性退化

在 DAPO-Math-17k 上用 SDPO（self-distillation）对比 GRPO：

DeepSeek-R1-Distill-Qwen-7B: AIME24 从 54.7% 降到 ~14%（SDPO with c=s），而 GRPO 微升到 56%
Qwen3-8B (Thinking ON): SDPO 同样退化
Qwen3-8B (Thinking OFF): GRPO 快速增长（通过增加 epistemic verbalization），SDPO 几乎不增长

训练动态对比

GRPO 的效果来源于增加 epistemic verbalization（模型学会在不确定时表达不确定），而 SDPO 的效果来源于压制它。

3. Task Coverage 是调节因子

Epistemic verbalization 的价值取决于 task diversity：

小 |D|（1~128 个问题）：SDPO 快速收敛，效率高于 GRPO，因为任务重复，不需要表达不确定性
大 |D|（512+）：SDPO 开始退化，因为任务多样性增加，模型需要不确定性表达来处理未见问题

Task coverage实验

这解释了为什么 SDPO 在 Chemistry（6 种问题类型，高重复）和 LiveCodeBench（131 题，训练=测试）上效果好，但在 Math（14000 题，OOD 评估）上崩溃。

4. Moving Target Teacher 放大退化

固定 teacher（EMA rate=0）比动态更新的 teacher（EMA rate=0.05）效果好。原因：动态更新形成正反馈环 —— 模型输出越自信 → teacher 用更自信的模型 → 更压制不确定性 → 更自信的输出。

对 Post-training 五维度框架的意义

这篇论文揭示的机制不完全属于已有的五个维度中任何一个，但和多个维度有交叉：

已有维度	与本文的关系
维度2: 分布匹配	SDPO 是 on-policy 的，所以分布匹配问题不大。退化来自另一个来源
维度3: 训练格式	Epistemic verbalization 压制可以看作一种"格式负迁移"——模型学了不该学的推理风格
维度5: 行为 repertoire	GRPO 增加 repertoire（学会表达不确定性），SDPO 减少 repertoire

关键洞察：这可能是第六个维度——推理风格的信息完整性。即使答案正确、格式正确、分布匹配，如果推理过程中丢失了"我不确定"这个信号，泛化就会退化。

但我对此保持谨慎。它也可以被归入现有维度：

归入维度5：不确定性表达是 behavior repertoire 的一部分，SDPO 压缩了这部分 repertoire
归入维度3：solution-guided 轨迹是一种"错误的训练格式"，因为它预设了推理时不可用的信息

最诚实的判断：这是维度3和维度5的交叉区域，而非独立的第六个维度。它精确化了"训练格式"的含义——不只是 MCQA vs CoT 的区别，还包括推理轨迹中不确定性表达的密度。

批判

Epistemic tokens 的定义很粗糙：只用 10 个关键词（wait, hmm, perhaps 等）来近似不确定性表达。这些词可能只是表面标记，真正的不确定性可能隐含在更微妙的模式中
因果 vs 相关：不确定性表达减少和性能退化是同时发生的，但论文没有做直接的因果实验（如：强制保留 epistemic tokens 的同时做 distillation）
数学特殊性：论文承认在 Chemistry 和 Code 上 SDPO 是有效的。Math 的特殊性可能在于其 task diversity 特别高，而非 epistemic verbalization 的通用重要性
模型规模：所有实验在 7-8B 模型上。论文自己也提到"smaller models with limited parametric knowledge"更依赖 epistemic verbalization。大模型可能不需要

实用启示

如果你要做 self-distillation：

低 task diversity 场景（化学、特定代码竞赛）：SDPO 有效
高 task diversity 场景（通用数学推理）：小心 epistemic verbalization 压制
固定 teacher 优于 moving target teacher
考虑用 c=s\think（只给答案不给思考过程）来减轻压制效果

来源: Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?, Microsoft Research, 2026-03-25