UniGRPO -- 联合优化推理和视觉生成：RL 把漫无目的的思考变成了任务导向的推理

0.8381 vs 0.8112 vs 0.8078 — 联合优化推理+生成（UniGRPO）比单独优化生成（FlowGRPO）或单独优化推理（TextGRPO）都更好。这不是简单的叠加，而是联合 MDP 产生了协同效应。更令人意外的是：SFT 模型"会思考但不会利用思考"，RL 训练后推理变得"有目的"了。

看到了什么

UniGRPO（CUHK + ByteDance Seed）把 “Prompt → Thinking → Image” 序列建模为统一的 MDP（Markov Decision Process，马尔可夫决策过程），用 GRPO（Group Relative Policy Optimization，一种无需 value model 的 RL 算法）联合优化文本推理和视觉生成。

UniGRPO overview

核心数据（Table 1）：

方法	TA Score	GenEval
SFT (w/ Thinking)	0.7769	0.82
FlowGRPO (Image only)	0.8112	0.88
TextGRPO (Text only)	0.8078	0.88
UniGRPO (Joint)	0.8381	0.90
UniFPO (Joint, FPO)	崩溃	崩溃

三个值得注意的观察：

联合 > 单独：UniGRPO 同时优于 FlowGRPO 和 TextGRPO，说明 text 和 image 的策略梯度存在正向交互
SFT 的推理和生成脱节：SFT 模型产生了详细的推理文本，但"这些思考可能失去焦点或偏离核心视觉生成任务"（论文原话）。RL 训练后推理变成了 task-oriented，紧密耦合图像合成
FPO 路线崩溃：UniFPO（用 FPO 替代 FlowGRPO 做 image RL）完全训练崩溃，暗示 on-policy SDE 探索在联合优化中比 forward-process 路线更稳定

两个技术贡献

1. 去掉 CFG（Classifier-Free Guidance）

CFG 是扩散模型推理的标准技术，每步需要两次模型前向（条件+无条件）。UniGRPO 在训练时完全去掉 CFG，结果发现：

CFG ablation

训练时无 CFG → 评估时加 CFG，性能不降反升。原因：RL 本身在最大化 reward（评估文本-图像对齐和视觉质量），alignment 能力被内化到策略权重中，不再需要 CFG 的外部引导。

实用意义很大：去掉 CFG 意味着线性无分支的 rollout，对 multi-round interleaved generation（多轮交错生成）至关重要 — 不然 CFG 的计算成本在多条件、多轮场景中指数增长。

2. Velocity MSE 替代 Latent KL

正则化对比：

策略	效果
无正则化	reward hacking：验证 reward 初始上升后下降，图像过饱和
Latent KL	timestep-dependent 加权留下漏洞：低噪声时惩罚过小，出现网格伪影
Velocity MSE（UniGRPO）	统一正则化，训练稳定，图像高保真

Regularization comparison

Latent KL 的问题：精确的 step-wise KL 在高斯分布下等价于速度差的加权平方，但权重 1/σ²_t 在高噪声时极小，导致优化器可以在高噪声区域偷偷偏离。直接用无加权的 MSE ||vθ - v_ref||² 消除了这个漏洞。

这和 SAGE-GRPO 的做法形成有趣对比：SAGE-GRPO 用 dual trust region（Moving KL + Step-wise KL），UniGRPO 用 unweighted Velocity MSE。两者都在解决同一个问题：timestep 级别的正则化不均匀性，但路径不同。

为什么这对推理-生成框架重要

UniGRPO 揭示了一个微妙的现象：SFT 让模型学会了"思考的格式"但不一定学会了"有效思考"。论文展示了 SFT 后模型的推理 trace 可能是冗长的、失焦的描述，RL 训练后变成了紧凑的、面向生成任务的分析。

Reasoning quality improvement

这和 Society of Thought（Kim et al. 2026）的发现形成互补：

Society of Thought：纯文本推理中，RL 自发涌现多视角辩论行为
UniGRPO：多模态推理+生成中，RL 让推理从"漫无目的"变成"任务导向"

共同指向：RL 不仅优化输出质量，还塑造了推理的策略本身。这支持了 post-training 五维度框架中"行为 repertoire"（第五维度）的观点 — RL 放大的不只是正确答案的概率，还包括认知行为模式。

和 Astrolabe / SAGE-GRPO 的关系

三篇论文代表了视频/图像生成 RL 的三条路线：

论文	路线	探索方式	正则化	联合推理
Astrolabe	Forward-process RL	隐式（正负策略插值）	Uncertainty-aware selective KL	无
SAGE-GRPO	Reverse-process RL (精确 SDE)	Manifold-aware 噪声	Dual trust region (Moving KL + Step KL)	无
UniGRPO	Reverse-process RL (标准 SDE)	标准 SDE	Velocity MSE	是

UniGRPO 的独特贡献不在于探索或正则化的细节（这方面 SAGE-GRPO 更精细），而在于把文本推理纳入优化闭环。

局限性和疑问

实验基于 Bagel 单一模型：Bagel 是 7B 级别的统一模型，不清楚结论是否推广到更大或更小的模型。特别是 UniFPO 崩溃可能是 Bagel 特有的，而非 FPO 路线的通用问题
只测了单轮推理→生成：论文标题说"unified"但实验只有 Prompt → Thinking → Image 一轮，multi-round interleaved generation 只是 future work
验证 reward 的可靠性：TA benchmark 用 VLM 评估 150 个 prompt × 4 images = 600 张图，GenEval 也是标准的 compositional benchmark。两者都偏向 compositional accuracy，对 aesthetic quality 的评估有限
推理质量的量化缺失：论文声称 RL 让推理变得"task-oriented"，但只有定性例子（Figure 6），没有对推理 trace 质量的定量度量。这是一个重要的 gap — 怎么量化"推理质量"本身就是开放问题

Future Work 中的亮点

论文提到两个方向：

Multi-round interleaved generation：MDP 框架自然扩展到多轮，但需要长视野 credit assignment
Multimodal Process Reward Model (PRM)：对推理中间步骤给 dense feedback，而不只是终端 reward。这类似于 LLM 推理中的 PRM 方向，但在多模态上更难 — 怎么判断"这步推理对图像生成有帮助"？

视频/图像生成 RL 正在从"怎么探索"和"怎么正则化"的工程问题，转向"怎么让推理和生成协同优化"的系统设计问题。UniGRPO 是第一个在统一模型上完成这个闭环并展示联合 > 单独的工作。