无监督自进化 — 当 majority voting 失败时,self-consistency + Judge modulation 是更稳健的替代
看到了什么
MathVision 上 +5.9% 的准确率提升(25.0% → 30.9%),没有用任何标注数据,也没有外部 reward model。OPPO AI Center 的论文 [When Models Judge Themselves] 提出了一个纯无监督的 self-evolution 框架,核心思路:用 self-consistency 作为初始 reward + frozen Judge(模型自己的初始副本)做 bounded modulation + group-wise distributional reward modeling。
为什么这重要
Post-training 的瓶颈之一是验证器精度(我的五维度框架中的维度 1)。当没有外部 verifiable reward 时(大多数真实场景),如何构建可靠的训练信号?Majority voting 是最简单的方案,但它的问题在于会放大早期的 dominant mode —— 如果模型一开始就倾向于某个错误答案,majority voting 会强化这个错误。
核心方法
三层信号构建
Layer 1: Self-Consistency Reward
对同一输入采样 n 个轨迹,每个轨迹的 reward = 其答案在 n 个回答中的经验频率:
1 | r_i = p̂(a_i) = count(a_i) / n |
这比 majority voting 保留了更多信息——不是只取最频繁答案,而是保留整个分布。
Layer 2: Judge Modulation
用一个 frozen copy 的初始模型作为 Judge,对每个轨迹给一个 quality score,但不直接作为 reward,而是通过一个 bounded sigmoid function 做调制:
1 | g(s) = 1 + λ_+ σ((s - t_h)/τ_h) - λ_- σ((t_l - s)/τ_l) |
关键设计:bounded(有上下界),continuously differentiable,防止 Judge 噪声被放大。
Layer 3: Group-wise Distributional Modeling
对同一输入的 n 个轨迹做 energy-based normalization,将绝对 reward 转换为 group 内的相对优势(log-softmax)。这防止了 policy collapse。
最终 Reward
1 | R_k = r_k · g(s_k) - λ_fmt · δ_k |
其中 δ_k 是格式违规惩罚。
关键实验结果

Ablation(非常清晰)
| 方法 | MathVision | DynaMath |
|---|---|---|
| Base | 25.0 | 20.3 |
| + Majority Vote | 27.5 | 21.4 |
| + Self-Consistency | 25.2 | 20.5 |
| + Judge Scoring | 27.3 | 21.1 |
| + MV + JS | 28.4 | 22.7 |
| + SC + JS | 30.1 | 23.7 |
| + SC + JS (Dist.) | 30.9 | 24.2 |
核心发现:
- Self-Consistency 单独用效果很差(+0.2),因为它只保留了分布但不能区分质量
- Judge 单独用也不稳定,因为 score 跨输入不可比
- SC + Judge 的组合才能同时保持多样性和区分质量
- Distributional modeling 进一步防止 policy collapse
训练动态对比

Majority voting 导致 entropy 快速崩溃(模型变得过度自信),而这个方法保持了更健康的 entropy 轨迹。这和 Self-Distillation 论文的发现遥相呼应——过度压制不确定性 = 退化。
跨模型泛化
在 Qwen2-VL-2B 到 Qwen2.5-VL-32B,InternVL3-8B,GLM-4.1V-9B,Qwen3-VL-8B 上都有效。甚至在已经经过 teacher distillation 的 Vision-R1 上还能进一步提升。
与 Post-training 五维度的关系
维度 1(验证器精度)的补充
这篇论文的核心贡献在于:当没有外部 verifier 时,如何构建有效的训练信号。它提出的三层方案是:
- Self-consistency → 粗粒度信号(哪些答案被重复了)
- Judge modulation → 细粒度质量区分(bounded,不过度依赖)
- Distributional modeling → 防止 collapse
这是维度 1 的一个退化优雅降级方案:从 ground-truth verifier → approximate self-verification。
与 Self-Distillation 论文的联系
两篇论文今天同时出现在 HuggingFace daily papers 上,它们共同指向一个主题:保持不确定性 vs 压制不确定性。
- Self-Distillation 论文:teacher 给了太多信息 → 压制 epistemic verbalization → 退化
- 本文:majority voting 压制了多样性 → entropy collapse → 退化
- 共同教训:post-training 的稳定性依赖于保持适度的不确定性
批判
- Judge 的天花板:论文自己在 Limitations 中承认——Judge 是冻结的初始模型副本,它的评估能力就是瓶颈。随着 Actor 变强,Judge 可能变成噪声而非信号
- 训练成本:1.4x supervised GRPO 的时间(因为额外的 sampling + Judge scoring),不算太贵,但也不是免费的
- 只在数学推理上验证:虽然在 ChartQA 和 MMVP 上有泛化实验,但核心还是数学。对于更开放的任务,self-consistency 信号可能更弱
- α=1 的选择:energy-based scaling 的温度参数 α=1 是否是最优的?论文没有做敏感性分析
实用启示
当你没有 ground-truth label 做 RLVR 时:
- 不要用 majority voting——它会放大早期错误
- Self-consistency + Judge modulation + distributional modeling 是更好的替代
- Judge 应该是冻结的初始模型,不是动态更新的(和 Self-Distillation 论文的"fixed teacher"结论一致)
- 8 个 rollout per question 是够用的
来源: When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning, OPPO AI Center + Tsinghua, 2026-03-24