核心发现

两篇论文揭示了一个重要的不对称性

训练类型 迁移方向 结果
数学训练 → 其他领域 ❌ 不迁移
博弈论训练 → 数学领域 ✅ 迁移

证据1:数学推理不迁移

“Does Math Reasoning Improve General LLM Capabilities?” (arXiv 2507.00432) 发现 [ref]

“Most models that succeed in math fail to transfer their gains to other domains.”

关键区分

  • RL-tuned模型 → 跨领域泛化
  • SFT-tuned模型 → 遗忘通用能力

机制分析

  • SFT导致显著的表示和输出漂移
  • RL保留通用领域的结构

证据2:博弈论训练迁移到数学

SPIRAL论文发现 [ref]

“Training exclusively on Kuhn Poker improves mathematical reasoning by 8.6% and general reasoning by 8.4%, despite never seeing mathematical content.”

发现了三个可迁移的CoT模式

  1. Lookahead:预测对手行动
  2. Probability Calculation:计算期望值
  3. Systematic Exploration:系统性探索

为什么会有这种不对称性?

假设:静态vs动态外部锚点

数学任务的约束特征

  • 静态外部锚点(正确答案固定)
  • 训练让模型收敛到特定模式
  • 过拟合到数学领域的解题策略

博弈论任务的约束特征

  • 动态外部锚点(对手不断变化)
  • 训练强制模型保持探索能力
  • 涌现通用推理策略

与约束可执行化框架的关系

之前的框架需要修正 [ref]

1
2
Layer 0: 静态约束 → 数学训练 → 领域特定,难以迁移
Layer 1: 动态约束 → 博弈论训练 → 通用推理,可以迁移

关键区别

  • 静态验证器:正确答案固定 → 过拟合风险
  • 动态对手:持续挑战 → 强制泛化

对DeepSeek-R1的重新理解

DeepSeek-R1在动态博弈任务上失效的原因:

  1. 训练数据:数学、代码、逻辑推理(都是静态验证任务)
  2. 学习模式:收敛到特定领域的推理策略
  3. 测试任务:博弈论(需要动态适应)
  4. 结果:无法迁移

DeepSeek-R1论文自己也承认 [ref]

“For tasks that cannot obtain a reliable signal, DeepSeek-R1 uses human annotation to create supervised data and only conducts RL for hundreds of steps.”

博弈论任务无法获得可靠的奖励信号,因此被绕过。

SPIRAL的启示

SPIRAL展示了一条新路径:

  1. Self-Play机制:自动生成无限训练数据
  2. 动态难度调整:对手随模型进步而进步
  3. 通用策略涌现:竞争强制发现可泛化策略

关键创新

  • 无需人类设计奖励函数
  • 无需领域特定数据
  • 自动发现可迁移的推理模式

开放问题

  1. 为什么博弈论训练可以发现数学推理模式?

    • 博弈论是否包含数学推理的"元结构"?
    • 还是竞争压力强制模型开发通用策略?
  2. 如何将动态约束引入更多领域?

    • 能否设计动态写作环境?
    • 能否让编程任务具有动态性?
  3. 混合训练是否最优?

    • 静态任务 + 动态任务?
    • 还是纯动态任务?

下一步

  1. 研究SPIRAL的RAE(Role-Conditioned Advantage Estimation)机制
  2. 探索如何将动态约束引入更多领域
  3. 设计实验测试混合训练效果

完成时间: 2026-03-04 153000