背景

上次探索发现了 SPIRAL 和 ViGaL 的核心发现:动态约束(对手进化)比静态约束(答案验证)更容易迁移 [ref]

问题是:如何将动态约束应用到开放式任务(写作、创意设计)?开放式任务没有明确的"对手"概念,也没有清晰的对错标准。

发现:创意写作中的对抗训练

找到一篇关键论文:“Igniting Creative Writing in Small Language Models: LLM-as-a-Judge versus Multi-Agent Refined Rewards” [ref]

核心机制:Generator-Detector 对抗动态

1
2
3
Generator: 生成"坏"问候语,试图欺骗 Detector
Detector: 学习区分好坏问候语
Reflector: 通过反思机制改进 Detector(使用真实标签的监督反馈)

这类似于 GAN,但应用在文本评估上:

  • Generator 不断生成更隐蔽的"坏"样本
  • Detector 被迫学习更精细的判断标准
  • Reflector 提供监督信号,防止对抗训练偏离

关键结果

  • LLM-as-a-Judge + RL 优秀率达到 92.4%(高频问候)
  • 超过 GPT-4o(49%)、DeepSeek-V3(91%)
  • 比 Multi-Agent RM 训练更高效

动态约束的通用范式

对比游戏训练 vs 创意写作对抗训练

维度 游戏训练 (SPIRAL) 创意写作对抗训练
对抗形式 Self-play(自己打自己) Generator-Detector
约束进化 对手策略进化 判断标准进化
反馈信号 游戏输赢 真实标签 + 对抗信号
规则清晰度 明确的游戏规则 模糊的创意标准

核心洞察

动态约束的本质不是"对手",而是对抗性交互让评估标准持续进化

  • 静态约束:评估标准固定(答案、规则)
  • 动态约束:评估标准进化(对手、对抗)

这解释了为什么动态约束更可迁移:

  • 游戏训练:对手策略进化 → 必须学习通用策略 → 可迁移
  • 创意写作对抗训练:判断标准进化 → 必须学习精细判断 → 更好的创意评估

反思

为什么 Reflector 重要?

论文显示,没有 Reflector 的 Detector F1 从 0.8708 降到 0.8100。

Reflector 的作用

  • 提供监督信号(真实标签)
  • 防止对抗训练陷入局部最优
  • 类似于 RAE 在 SPIRAL 中的作用:提供稳定的 baseline

这呼应了之前的发现:纯对抗训练不稳定,需要额外的稳定机制

与 SPIRAL 的 RAE 的对应

问题 SPIRAL 创意写作
对抗不稳定 Thinking Collapse 对抗训练偏离
解决方案 RAE(EMA baseline) Reflector(监督反馈)
机制 独立 baseline 减少方差 真实标签提供锚点

共同模式:对抗性训练需要外部锚点来稳定。

Multi-Agent vs LLM-as-a-Judge

论文比较了两种方法:

Multi-Agent Framework

  • Retrieval → Debate(正反)→ Judge → Reflect
  • 构建 preference data → 训练 RM
  • 更复杂,更依赖人工设计

LLM-as-a-Judge + Adversarial

  • Generator-Detector 对抗 + Reflector
  • 直接优化判断 prompt
  • 更简洁,更高效

对比 SPIRAL

  • SPIRAL 更接近 LLM-as-a-Judge:通过对抗优化策略
  • 而不是 Multi-Agent:通过多智能体构建偏好数据

待探索

  1. 其他开放式任务的动态约束设计

    • 编程任务:能否用"漏洞攻击-代码防御"作为动态约束?
    • 设计任务:能否用"风格破坏-风格识别"作为动态约束?
  2. 对抗训练的收敛条件

    • SPIRAL 需要 RAE 防止 Thinking Collapse
    • 创意写作需要 Reflector 防止偏离
    • 是否有通用的"稳定性条件"?
  3. 静态+动态混合的可能性

    • SPIRAL 只用动态约束(self-play)
    • 创意写作用动态约束 + 真实标签
    • DeepSeek-R1 只用静态约束(答案验证)
    • 是否可以结合?

关联探索:[SPIRAL的RAE机制]