看到了什么

MathVision 上 +5.9% 的准确率提升(25.0% → 30.9%),没有用任何标注数据,也没有外部 reward model。OPPO AI Center 的论文 [When Models Judge Themselves] 提出了一个纯无监督的 self-evolution 框架,核心思路:用 self-consistency 作为初始 reward + frozen Judge(模型自己的初始副本)做 bounded modulation + group-wise distributional reward modeling。

为什么这重要

Post-training 的瓶颈之一是验证器精度(我的五维度框架中的维度 1)。当没有外部 verifiable reward 时(大多数真实场景),如何构建可靠的训练信号?Majority voting 是最简单的方案,但它的问题在于会放大早期的 dominant mode —— 如果模型一开始就倾向于某个错误答案,majority voting 会强化这个错误。

核心方法

三层信号构建

Layer 1: Self-Consistency Reward

对同一输入采样 n 个轨迹,每个轨迹的 reward = 其答案在 n 个回答中的经验频率:

1
r_i = p̂(a_i) = count(a_i) / n

这比 majority voting 保留了更多信息——不是只取最频繁答案,而是保留整个分布。

Layer 2: Judge Modulation

用一个 frozen copy 的初始模型作为 Judge,对每个轨迹给一个 quality score,但不直接作为 reward,而是通过一个 bounded sigmoid function 做调制:

1
g(s) = 1 + λ_+ σ((s - t_h)/τ_h) - λ_- σ((t_l - s)/τ_l)

关键设计:bounded(有上下界),continuously differentiable,防止 Judge 噪声被放大。

Layer 3: Group-wise Distributional Modeling

对同一输入的 n 个轨迹做 energy-based normalization,将绝对 reward 转换为 group 内的相对优势(log-softmax)。这防止了 policy collapse。

最终 Reward

1
R_k = r_k · g(s_k) - λ_fmt · δ_k

其中 δ_k 是格式违规惩罚。

关键实验结果

方法概览

Ablation(非常清晰)

方法 MathVision DynaMath
Base 25.0 20.3
+ Majority Vote 27.5 21.4
+ Self-Consistency 25.2 20.5
+ Judge Scoring 27.3 21.1
+ MV + JS 28.4 22.7
+ SC + JS 30.1 23.7
+ SC + JS (Dist.) 30.9 24.2

核心发现:

  1. Self-Consistency 单独用效果很差(+0.2),因为它只保留了分布但不能区分质量
  2. Judge 单独用也不稳定,因为 score 跨输入不可比
  3. SC + Judge 的组合才能同时保持多样性和区分质量
  4. Distributional modeling 进一步防止 policy collapse

训练动态对比

训练动态

Majority voting 导致 entropy 快速崩溃(模型变得过度自信),而这个方法保持了更健康的 entropy 轨迹。这和 Self-Distillation 论文的发现遥相呼应——过度压制不确定性 = 退化。

跨模型泛化

在 Qwen2-VL-2B 到 Qwen2.5-VL-32B,InternVL3-8B,GLM-4.1V-9B,Qwen3-VL-8B 上都有效。甚至在已经经过 teacher distillation 的 Vision-R1 上还能进一步提升。

与 Post-training 五维度的关系

维度 1(验证器精度)的补充

这篇论文的核心贡献在于:当没有外部 verifier 时,如何构建有效的训练信号。它提出的三层方案是:

  1. Self-consistency → 粗粒度信号(哪些答案被重复了)
  2. Judge modulation → 细粒度质量区分(bounded,不过度依赖)
  3. Distributional modeling → 防止 collapse

这是维度 1 的一个退化优雅降级方案:从 ground-truth verifier → approximate self-verification。

与 Self-Distillation 论文的联系

两篇论文今天同时出现在 HuggingFace daily papers 上,它们共同指向一个主题:保持不确定性 vs 压制不确定性

  • Self-Distillation 论文:teacher 给了太多信息 → 压制 epistemic verbalization → 退化
  • 本文:majority voting 压制了多样性 → entropy collapse → 退化
  • 共同教训:post-training 的稳定性依赖于保持适度的不确定性

批判

  1. Judge 的天花板:论文自己在 Limitations 中承认——Judge 是冻结的初始模型副本,它的评估能力就是瓶颈。随着 Actor 变强,Judge 可能变成噪声而非信号
  2. 训练成本:1.4x supervised GRPO 的时间(因为额外的 sampling + Judge scoring),不算太贵,但也不是免费的
  3. 只在数学推理上验证:虽然在 ChartQA 和 MMVP 上有泛化实验,但核心还是数学。对于更开放的任务,self-consistency 信号可能更弱
  4. α=1 的选择:energy-based scaling 的温度参数 α=1 是否是最优的?论文没有做敏感性分析

实用启示

当你没有 ground-truth label 做 RLVR 时:

  1. 不要用 majority voting——它会放大早期错误
  2. Self-consistency + Judge modulation + distributional modeling 是更好的替代
  3. Judge 应该是冻结的初始模型,不是动态更新的(和 Self-Distillation 论文的"fixed teacher"结论一致)
  4. 8 个 rollout per question 是够用的

来源: When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning, OPPO AI Center + Tsinghua, 2026-03-24