动态约束的通用范式:从游戏训练到创意写作对抗训练
背景
上次探索发现了 SPIRAL 和 ViGaL 的核心发现:动态约束(对手进化)比静态约束(答案验证)更容易迁移 [ref]
问题是:如何将动态约束应用到开放式任务(写作、创意设计)?开放式任务没有明确的"对手"概念,也没有清晰的对错标准。
发现:创意写作中的对抗训练
找到一篇关键论文:“Igniting Creative Writing in Small Language Models: LLM-as-a-Judge versus Multi-Agent Refined Rewards” [ref]
核心机制:Generator-Detector 对抗动态
1 | Generator: 生成"坏"问候语,试图欺骗 Detector |
这类似于 GAN,但应用在文本评估上:
- Generator 不断生成更隐蔽的"坏"样本
- Detector 被迫学习更精细的判断标准
- Reflector 提供监督信号,防止对抗训练偏离
关键结果:
- LLM-as-a-Judge + RL 优秀率达到 92.4%(高频问候)
- 超过 GPT-4o(49%)、DeepSeek-V3(91%)
- 比 Multi-Agent RM 训练更高效
动态约束的通用范式
对比游戏训练 vs 创意写作对抗训练:
| 维度 | 游戏训练 (SPIRAL) | 创意写作对抗训练 |
|---|---|---|
| 对抗形式 | Self-play(自己打自己) | Generator-Detector |
| 约束进化 | 对手策略进化 | 判断标准进化 |
| 反馈信号 | 游戏输赢 | 真实标签 + 对抗信号 |
| 规则清晰度 | 明确的游戏规则 | 模糊的创意标准 |
核心洞察:
动态约束的本质不是"对手",而是对抗性交互让评估标准持续进化。
- 静态约束:评估标准固定(答案、规则)
- 动态约束:评估标准进化(对手、对抗)
这解释了为什么动态约束更可迁移:
- 游戏训练:对手策略进化 → 必须学习通用策略 → 可迁移
- 创意写作对抗训练:判断标准进化 → 必须学习精细判断 → 更好的创意评估
反思
为什么 Reflector 重要?
论文显示,没有 Reflector 的 Detector F1 从 0.8708 降到 0.8100。
Reflector 的作用:
- 提供监督信号(真实标签)
- 防止对抗训练陷入局部最优
- 类似于 RAE 在 SPIRAL 中的作用:提供稳定的 baseline
这呼应了之前的发现:纯对抗训练不稳定,需要额外的稳定机制。
与 SPIRAL 的 RAE 的对应
| 问题 | SPIRAL | 创意写作 |
|---|---|---|
| 对抗不稳定 | Thinking Collapse | 对抗训练偏离 |
| 解决方案 | RAE(EMA baseline) | Reflector(监督反馈) |
| 机制 | 独立 baseline 减少方差 | 真实标签提供锚点 |
共同模式:对抗性训练需要外部锚点来稳定。
Multi-Agent vs LLM-as-a-Judge
论文比较了两种方法:
Multi-Agent Framework:
- Retrieval → Debate(正反)→ Judge → Reflect
- 构建 preference data → 训练 RM
- 更复杂,更依赖人工设计
LLM-as-a-Judge + Adversarial:
- Generator-Detector 对抗 + Reflector
- 直接优化判断 prompt
- 更简洁,更高效
对比 SPIRAL:
- SPIRAL 更接近 LLM-as-a-Judge:通过对抗优化策略
- 而不是 Multi-Agent:通过多智能体构建偏好数据
待探索
-
其他开放式任务的动态约束设计
- 编程任务:能否用"漏洞攻击-代码防御"作为动态约束?
- 设计任务:能否用"风格破坏-风格识别"作为动态约束?
-
对抗训练的收敛条件
- SPIRAL 需要 RAE 防止 Thinking Collapse
- 创意写作需要 Reflector 防止偏离
- 是否有通用的"稳定性条件"?
-
静态+动态混合的可能性
- SPIRAL 只用动态约束(self-play)
- 创意写作用动态约束 + 真实标签
- DeepSeek-R1 只用静态约束(答案验证)
- 是否可以结合?
关联探索:[SPIRAL的RAE机制]
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论