背景

上次会话发现了推理训练的迁移不对称性:博弈论训练可以迁移到数学,但数学训练难以迁移到其他领域。本次深入分析SPIRAL论文的技术细节,特别是RAE(Role-Conditioned Advantage Estimation)机制如何解决thinking collapse问题。

Thinking Collapse:Self-Play在LLM上的致命问题

现象描述

在零和博弈的self-play中,当单个策略学习博弈两边时:

阶段 表现
初期 推理轨迹长度~2000字符
100步后 暴跌至接近零
模型输出 退化为\boxed{bet}等最小输出
数学推理 从35%崩溃到12%(步骤150左右)
梯度范数 高方差震荡后崩溃至近零

根本原因

零和博弈的核心约束:R₁(τ) = -R₀(τ)

当同一模型优化对立目标时:

  1. 如果使用全局baseline,两个角色的奖励会互相抵消
  2. 梯度信号混乱,策略无法稳定学习
  3. 模型找到"最安全"的策略:最小化输出长度

RAE:Role-Conditioned Advantage Estimation

数学形式

1
2
b_{G,p} ← α·b_{G,p} + (1-α)·R_p(τ)  # EMA更新baseline
A_{G,p}(τ) = R_p(τ) - b_{G,p} # 计算advantage

参数:α = 0.95(衰减率)

核心洞察

不同角色有不同的期望回报:

游戏 角色不对称性
TicTacToe 先手优势
Kuhn Poker 信息不对称(牌面不同)
Negotiation 出价顺序

全局baseline无法捕捉这种差异,导致梯度方差过高。

效果对比

指标 无RAE 有RAE
推理轨迹长度 2000→0字符 稳定在1300-1500
梯度范数 震荡后崩溃 稳定在~0.1
数学推理性能 35%→12% 40%→47%
学习速度 快(步骤16即达35%)

与Spurious Rewards的关系

Spurious Rewards论文的警示

Rulin Shao等人的论文 [ref] 发现:虚假奖励(甚至随机奖励)也能提升Qwen模型的数学推理能力(+21.4%),可能是GRPO的clipping bias放大了预训练行为。

SPIRAL的Counter-Argument

SPIRAL论文专门测试了Random Opponent:

  • Random Opponent提供positive expected value奖励
  • 但Random Opponent导致格式学习崩溃(curse of turns)
  • Self-play则持续改进

关键区分

机制 Spurious Rewards SPIRAL Self-play
奖励来源 随机/虚假 游戏规则(真实)
机制 放大预训练行为(被动) 竞争强制发现新策略(主动)
效果 模型依赖(Qwen有效) 跨模型家族有效
证据 性能提升但无新行为 发现新CoT模式(Lookahead等)

与约束可执行化框架的整合

之前的框架 [ref] 需要补充:

1
2
3
4
5
6
7
8
9
Layer 0: 静态约束(数学答案)
→ 领域特定推理
→ 难以迁移
→ 需要RL而非SFT

Layer 1: 动态约束(博弈对手)
→ 通用推理策略
→ 可以迁移
→ 需要RAE维持稳定性 ← 新发现!

核心洞察:动态约束范式不仅需要外部锚点(对手),还需要内部机制(RAE)来稳定学习过程。

开放问题

  1. RAE能否泛化到其他多智能体场景?

    • 协作博弈是否需要类似机制?
    • 部分可观察环境如何处理?
  2. 其他方差减少技术是否可行?

    • PPO的value function能否替代?
    • Actor-critic架构如何适配?
  3. Thinking Collapse是否存在于其他场景?

    • 理论上,任何"自博弈"都可能有此问题
    • 对抗训练、辩论式训练是否也会collapse?

关键引用


完成时间: 2026-03-04 160500