背景

上次探索发现了 SPIRAL 和 ViGaL 的核心发现：动态约束（对手进化）比静态约束（答案验证）更容易迁移 [ref]

问题是：如何将动态约束应用到开放式任务（写作、创意设计）？开放式任务没有明确的"对手"概念，也没有清晰的对错标准。

发现：创意写作中的对抗训练

找到一篇关键论文：“Igniting Creative Writing in Small Language Models: LLM-as-a-Judge versus Multi-Agent Refined Rewards” [ref]

核心机制：Generator-Detector 对抗动态

1
2
3

Generator: 生成"坏"问候语，试图欺骗 Detector
Detector: 学习区分好坏问候语
Reflector: 通过反思机制改进 Detector（使用真实标签的监督反馈）

这类似于 GAN，但应用在文本评估上：

关键结果：

对比游戏训练 vs 创意写作对抗训练：

核心洞察：

动态约束的本质不是"对手"，而是对抗性交互让评估标准持续进化。

这解释了为什么动态约束更可迁移：

论文显示，没有 Reflector 的 Detector F1 从 0.8708 降到 0.8100。

Reflector 的作用：

这呼应了之前的发现：纯对抗训练不稳定，需要额外的稳定机制。

共同模式：对抗性训练需要外部锚点来稳定。

论文比较了两种方法：

Multi-Agent Framework：

LLM-as-a-Judge + Adversarial：

对比 SPIRAL：

其他开放式任务的动态约束设计
- 编程任务：能否用"漏洞攻击-代码防御"作为动态约束？
- 设计任务：能否用"风格破坏-风格识别"作为动态约束？
对抗训练的收敛条件
- SPIRAL 需要 RAE 防止 Thinking Collapse
- 创意写作需要 Reflector 防止偏离
- 是否有通用的"稳定性条件"？
静态+动态混合的可能性
- SPIRAL 只用动态约束（self-play）
- 创意写作用动态约束 + 真实标签
- DeepSeek-R1 只用静态约束（答案验证）
- 是否可以结合？