UniGRPO -- 联合优化推理和视觉生成:RL 把漫无目的的思考变成了任务导向的推理
0.8381 vs 0.8112 vs 0.8078 — 联合优化推理+生成(UniGRPO)比单独优化生成(FlowGRPO)或单独优化推理(TextGRPO)都更好。这不是简单的叠加,而是联合 MDP 产生了协同效应。更令人意外的是:SFT 模型"会思考但不会利用思考",RL 训练后推理变得"有目的"了。
看到了什么
UniGRPO(CUHK + ByteDance Seed)把 “Prompt → Thinking → Image” 序列建模为统一的 MDP(Markov Decision Process,马尔可夫决策过程),用 GRPO(Group Relative Policy Optimization,一种无需 value model 的 RL 算法)联合优化文本推理和视觉生成。

核心数据(Table 1):
| 方法 | TA Score | GenEval |
|---|---|---|
| SFT (w/ Thinking) | 0.7769 | 0.82 |
| FlowGRPO (Image only) | 0.8112 | 0.88 |
| TextGRPO (Text only) | 0.8078 | 0.88 |
| UniGRPO (Joint) | 0.8381 | 0.90 |
| UniFPO (Joint, FPO) | 崩溃 | 崩溃 |
三个值得注意的观察:
- 联合 > 单独:UniGRPO 同时优于 FlowGRPO 和 TextGRPO,说明 text 和 image 的策略梯度存在正向交互
- SFT 的推理和生成脱节:SFT 模型产生了详细的推理文本,但"这些思考可能失去焦点或偏离核心视觉生成任务"(论文原话)。RL 训练后推理变成了 task-oriented,紧密耦合图像合成
- FPO 路线崩溃:UniFPO(用 FPO 替代 FlowGRPO 做 image RL)完全训练崩溃,暗示 on-policy SDE 探索在联合优化中比 forward-process 路线更稳定
两个技术贡献
1. 去掉 CFG(Classifier-Free Guidance)
CFG 是扩散模型推理的标准技术,每步需要两次模型前向(条件+无条件)。UniGRPO 在训练时完全去掉 CFG,结果发现:

训练时无 CFG → 评估时加 CFG,性能不降反升。原因:RL 本身在最大化 reward(评估文本-图像对齐和视觉质量),alignment 能力被内化到策略权重中,不再需要 CFG 的外部引导。
实用意义很大:去掉 CFG 意味着线性无分支的 rollout,对 multi-round interleaved generation(多轮交错生成)至关重要 — 不然 CFG 的计算成本在多条件、多轮场景中指数增长。
2. Velocity MSE 替代 Latent KL
正则化对比:
| 策略 | 效果 |
|---|---|
| 无正则化 | reward hacking:验证 reward 初始上升后下降,图像过饱和 |
| Latent KL | timestep-dependent 加权留下漏洞:低噪声时惩罚过小,出现网格伪影 |
| Velocity MSE(UniGRPO) | 统一正则化,训练稳定,图像高保真 |

Latent KL 的问题:精确的 step-wise KL 在高斯分布下等价于速度差的加权平方,但权重 1/σ²_t 在高噪声时极小,导致优化器可以在高噪声区域偷偷偏离。直接用无加权的 MSE ||vθ - v_ref||² 消除了这个漏洞。
这和 SAGE-GRPO 的做法形成有趣对比:SAGE-GRPO 用 dual trust region(Moving KL + Step-wise KL),UniGRPO 用 unweighted Velocity MSE。两者都在解决同一个问题:timestep 级别的正则化不均匀性,但路径不同。
为什么这对推理-生成框架重要
UniGRPO 揭示了一个微妙的现象:SFT 让模型学会了"思考的格式"但不一定学会了"有效思考"。论文展示了 SFT 后模型的推理 trace 可能是冗长的、失焦的描述,RL 训练后变成了紧凑的、面向生成任务的分析。

这和 Society of Thought(Kim et al. 2026)的发现形成互补:
- Society of Thought:纯文本推理中,RL 自发涌现多视角辩论行为
- UniGRPO:多模态推理+生成中,RL 让推理从"漫无目的"变成"任务导向"
共同指向:RL 不仅优化输出质量,还塑造了推理的策略本身。这支持了 post-training 五维度框架中"行为 repertoire"(第五维度)的观点 — RL 放大的不只是正确答案的概率,还包括认知行为模式。
和 Astrolabe / SAGE-GRPO 的关系
三篇论文代表了视频/图像生成 RL 的三条路线:
| 论文 | 路线 | 探索方式 | 正则化 | 联合推理 |
|---|---|---|---|---|
| Astrolabe | Forward-process RL | 隐式(正负策略插值) | Uncertainty-aware selective KL | 无 |
| SAGE-GRPO | Reverse-process RL (精确 SDE) | Manifold-aware 噪声 | Dual trust region (Moving KL + Step KL) | 无 |
| UniGRPO | Reverse-process RL (标准 SDE) | 标准 SDE | Velocity MSE | 是 |
UniGRPO 的独特贡献不在于探索或正则化的细节(这方面 SAGE-GRPO 更精细),而在于把文本推理纳入优化闭环。
局限性和疑问
- 实验基于 Bagel 单一模型:Bagel 是 7B 级别的统一模型,不清楚结论是否推广到更大或更小的模型。特别是 UniFPO 崩溃可能是 Bagel 特有的,而非 FPO 路线的通用问题
- 只测了单轮推理→生成:论文标题说"unified"但实验只有 Prompt → Thinking → Image 一轮,multi-round interleaved generation 只是 future work
- 验证 reward 的可靠性:TA benchmark 用 VLM 评估 150 个 prompt × 4 images = 600 张图,GenEval 也是标准的 compositional benchmark。两者都偏向 compositional accuracy,对 aesthetic quality 的评估有限
- 推理质量的量化缺失:论文声称 RL 让推理变得"task-oriented",但只有定性例子(Figure 6),没有对推理 trace 质量的定量度量。这是一个重要的 gap — 怎么量化"推理质量"本身就是开放问题
Future Work 中的亮点
论文提到两个方向:
- Multi-round interleaved generation:MDP 框架自然扩展到多轮,但需要长视野 credit assignment
- Multimodal Process Reward Model (PRM):对推理中间步骤给 dense feedback,而不只是终端 reward。这类似于 LLM 推理中的 PRM 方向,但在多模态上更难 — 怎么判断"这步推理对图像生成有帮助"?
视频/图像生成 RL 正在从"怎么探索"和"怎么正则化"的工程问题,转向"怎么让推理和生成协同优化"的系统设计问题。UniGRPO 是第一个在统一模型上完成这个闭环并展示联合 > 单独的工作。