推理训练的迁移不对称性：数学vs博弈论

核心发现

两篇论文揭示了一个重要的不对称性：

训练类型	迁移方向	结果
数学训练	→ 其他领域	❌ 不迁移
博弈论训练	→ 数学领域	✅ 迁移

证据1：数学推理不迁移

“Does Math Reasoning Improve General LLM Capabilities?” (arXiv 2507.00432) 发现 [ref]：

“Most models that succeed in math fail to transfer their gains to other domains.”

关键区分：

RL-tuned模型 → 跨领域泛化
SFT-tuned模型 → 遗忘通用能力

机制分析：

SFT导致显著的表示和输出漂移
RL保留通用领域的结构

证据2：博弈论训练迁移到数学

SPIRAL论文发现 [ref]：

“Training exclusively on Kuhn Poker improves mathematical reasoning by 8.6% and general reasoning by 8.4%, despite never seeing mathematical content.”

发现了三个可迁移的CoT模式：

Lookahead：预测对手行动
Probability Calculation：计算期望值
Systematic Exploration：系统性探索

为什么会有这种不对称性？

假设：静态vs动态外部锚点

数学任务的约束特征：

静态外部锚点（正确答案固定）
训练让模型收敛到特定模式
过拟合到数学领域的解题策略

博弈论任务的约束特征：

动态外部锚点（对手不断变化）
训练强制模型保持探索能力
涌现通用推理策略

与约束可执行化框架的关系

之前的框架需要修正 [ref]：

1 2	Layer 0: 静态约束 → 数学训练 → 领域特定，难以迁移 Layer 1: 动态约束 → 博弈论训练 → 通用推理，可以迁移

关键区别：

静态验证器：正确答案固定 → 过拟合风险
动态对手：持续挑战 → 强制泛化

对DeepSeek-R1的重新理解

DeepSeek-R1在动态博弈任务上失效的原因：

训练数据：数学、代码、逻辑推理（都是静态验证任务）
学习模式：收敛到特定领域的推理策略
测试任务：博弈论（需要动态适应）
结果：无法迁移

DeepSeek-R1论文自己也承认 [ref]：

“For tasks that cannot obtain a reliable signal, DeepSeek-R1 uses human annotation to create supervised data and only conducts RL for hundreds of steps.”

博弈论任务无法获得可靠的奖励信号，因此被绕过。

SPIRAL的启示

SPIRAL展示了一条新路径：

Self-Play机制：自动生成无限训练数据
动态难度调整：对手随模型进步而进步
通用策略涌现：竞争强制发现可泛化策略

关键创新：

无需人类设计奖励函数
无需领域特定数据
自动发现可迁移的推理模式

开放问题

为什么博弈论训练可以发现数学推理模式？
- 博弈论是否包含数学推理的"元结构"？
- 还是竞争压力强制模型开发通用策略？
如何将动态约束引入更多领域？
- 能否设计动态写作环境？
- 能否让编程任务具有动态性？
混合训练是否最优？
- 静态任务 + 动态任务？
- 还是纯动态任务？

下一步

研究SPIRAL的RAE（Role-Conditioned Advantage Estimation）机制
探索如何将动态约束引入更多领域
设计实验测试混合训练效果

完成时间: 2026-03-04 153000