0.8381 vs 0.8112 vs 0.8078 — 联合优化推理+生成(UniGRPO)比单独优化生成(FlowGRPO)或单独优化推理(TextGRPO)都更好。这不是简单的叠加,而是联合 MDP 产生了协同效应。更令人意外的是:SFT 模型"会思考但不会利用思考",RL 训练后推理变得"有目的"了。

看到了什么

UniGRPO(CUHK + ByteDance Seed)把 “Prompt → Thinking → Image” 序列建模为统一的 MDP(Markov Decision Process,马尔可夫决策过程),用 GRPO(Group Relative Policy Optimization,一种无需 value model 的 RL 算法)联合优化文本推理和视觉生成。

UniGRPO overview

核心数据(Table 1):

方法 TA Score GenEval
SFT (w/ Thinking) 0.7769 0.82
FlowGRPO (Image only) 0.8112 0.88
TextGRPO (Text only) 0.8078 0.88
UniGRPO (Joint) 0.8381 0.90
UniFPO (Joint, FPO) 崩溃 崩溃

三个值得注意的观察:

  1. 联合 > 单独:UniGRPO 同时优于 FlowGRPO 和 TextGRPO,说明 text 和 image 的策略梯度存在正向交互
  2. SFT 的推理和生成脱节:SFT 模型产生了详细的推理文本,但"这些思考可能失去焦点或偏离核心视觉生成任务"(论文原话)。RL 训练后推理变成了 task-oriented,紧密耦合图像合成
  3. FPO 路线崩溃:UniFPO(用 FPO 替代 FlowGRPO 做 image RL)完全训练崩溃,暗示 on-policy SDE 探索在联合优化中比 forward-process 路线更稳定

两个技术贡献

1. 去掉 CFG(Classifier-Free Guidance)

CFG 是扩散模型推理的标准技术,每步需要两次模型前向(条件+无条件)。UniGRPO 在训练时完全去掉 CFG,结果发现:

CFG ablation

训练时无 CFG → 评估时加 CFG,性能不降反升。原因:RL 本身在最大化 reward(评估文本-图像对齐和视觉质量),alignment 能力被内化到策略权重中,不再需要 CFG 的外部引导。

实用意义很大:去掉 CFG 意味着线性无分支的 rollout,对 multi-round interleaved generation(多轮交错生成)至关重要 — 不然 CFG 的计算成本在多条件、多轮场景中指数增长。

2. Velocity MSE 替代 Latent KL

正则化对比:

策略 效果
无正则化 reward hacking:验证 reward 初始上升后下降,图像过饱和
Latent KL timestep-dependent 加权留下漏洞:低噪声时惩罚过小,出现网格伪影
Velocity MSE(UniGRPO) 统一正则化,训练稳定,图像高保真

Regularization comparison

Latent KL 的问题:精确的 step-wise KL 在高斯分布下等价于速度差的加权平方,但权重 1/σ²_t 在高噪声时极小,导致优化器可以在高噪声区域偷偷偏离。直接用无加权的 MSE ||vθ - v_ref||² 消除了这个漏洞。

这和 SAGE-GRPO 的做法形成有趣对比:SAGE-GRPO 用 dual trust region(Moving KL + Step-wise KL),UniGRPO 用 unweighted Velocity MSE。两者都在解决同一个问题:timestep 级别的正则化不均匀性,但路径不同。

为什么这对推理-生成框架重要

UniGRPO 揭示了一个微妙的现象:SFT 让模型学会了"思考的格式"但不一定学会了"有效思考"。论文展示了 SFT 后模型的推理 trace 可能是冗长的、失焦的描述,RL 训练后变成了紧凑的、面向生成任务的分析。

Reasoning quality improvement

这和 Society of Thought(Kim et al. 2026)的发现形成互补:

  • Society of Thought:纯文本推理中,RL 自发涌现多视角辩论行为
  • UniGRPO:多模态推理+生成中,RL 让推理从"漫无目的"变成"任务导向"

共同指向:RL 不仅优化输出质量,还塑造了推理的策略本身。这支持了 post-training 五维度框架中"行为 repertoire"(第五维度)的观点 — RL 放大的不只是正确答案的概率,还包括认知行为模式。

和 Astrolabe / SAGE-GRPO 的关系

三篇论文代表了视频/图像生成 RL 的三条路线:

论文 路线 探索方式 正则化 联合推理
Astrolabe Forward-process RL 隐式(正负策略插值) Uncertainty-aware selective KL
SAGE-GRPO Reverse-process RL (精确 SDE) Manifold-aware 噪声 Dual trust region (Moving KL + Step KL)
UniGRPO Reverse-process RL (标准 SDE) 标准 SDE Velocity MSE

UniGRPO 的独特贡献不在于探索或正则化的细节(这方面 SAGE-GRPO 更精细),而在于把文本推理纳入优化闭环

局限性和疑问

  1. 实验基于 Bagel 单一模型:Bagel 是 7B 级别的统一模型,不清楚结论是否推广到更大或更小的模型。特别是 UniFPO 崩溃可能是 Bagel 特有的,而非 FPO 路线的通用问题
  2. 只测了单轮推理→生成:论文标题说"unified"但实验只有 Prompt → Thinking → Image 一轮,multi-round interleaved generation 只是 future work
  3. 验证 reward 的可靠性:TA benchmark 用 VLM 评估 150 个 prompt × 4 images = 600 张图,GenEval 也是标准的 compositional benchmark。两者都偏向 compositional accuracy,对 aesthetic quality 的评估有限
  4. 推理质量的量化缺失:论文声称 RL 让推理变得"task-oriented",但只有定性例子(Figure 6),没有对推理 trace 质量的定量度量。这是一个重要的 gap — 怎么量化"推理质量"本身就是开放问题

Future Work 中的亮点

论文提到两个方向:

  • Multi-round interleaved generation:MDP 框架自然扩展到多轮,但需要长视野 credit assignment
  • Multimodal Process Reward Model (PRM):对推理中间步骤给 dense feedback,而不只是终端 reward。这类似于 LLM 推理中的 PRM 方向,但在多模态上更难 — 怎么判断"这步推理对图像生成有帮助"?

视频/图像生成 RL 正在从"怎么探索"和"怎么正则化"的工程问题,转向"怎么让推理和生成协同优化"的系统设计问题。UniGRPO 是第一个在统一模型上完成这个闭环并展示联合 > 单独的工作。