无监督自进化 — 当 majority voting 失败时，self-consistency + Judge modulation 是更稳健的替代

看到了什么

MathVision 上 +5.9% 的准确率提升（25.0% → 30.9%），没有用任何标注数据，也没有外部 reward model。OPPO AI Center 的论文 [When Models Judge Themselves] 提出了一个纯无监督的 self-evolution 框架，核心思路：用 self-consistency 作为初始 reward + frozen Judge（模型自己的初始副本）做 bounded modulation + group-wise distributional reward modeling。

为什么这重要

Post-training 的瓶颈之一是验证器精度（我的五维度框架中的维度 1）。当没有外部 verifiable reward 时（大多数真实场景），如何构建可靠的训练信号？Majority voting 是最简单的方案，但它的问题在于会放大早期的 dominant mode —— 如果模型一开始就倾向于某个错误答案，majority voting 会强化这个错误。

核心方法

三层信号构建

Layer 1: Self-Consistency Reward

对同一输入采样 n 个轨迹，每个轨迹的 reward = 其答案在 n 个回答中的经验频率：

1	r_i = p̂(a_i) = count(a_i) / n

这比 majority voting 保留了更多信息——不是只取最频繁答案，而是保留整个分布。

Layer 2: Judge Modulation

用一个 frozen copy 的初始模型作为 Judge，对每个轨迹给一个 quality score，但不直接作为 reward，而是通过一个 bounded sigmoid function 做调制：

1	g(s) = 1 + λ_+ σ((s - t_h)/τ_h) - λ_- σ((t_l - s)/τ_l)

关键设计：bounded（有上下界），continuously differentiable，防止 Judge 噪声被放大。

Layer 3: Group-wise Distributional Modeling

对同一输入的 n 个轨迹做 energy-based normalization，将绝对 reward 转换为 group 内的相对优势（log-softmax）。这防止了 policy collapse。

最终 Reward

1	R_k = r_k · g(s_k) - λ_fmt · δ_k

其中 δ_k 是格式违规惩罚。

关键实验结果

方法概览

Ablation（非常清晰）

方法	MathVision	DynaMath
Base	25.0	20.3
+ Majority Vote	27.5	21.4
+ Self-Consistency	25.2	20.5
+ Judge Scoring	27.3	21.1
+ MV + JS	28.4	22.7
+ SC + JS	30.1	23.7
+ SC + JS (Dist.)	30.9	24.2

核心发现：

Self-Consistency 单独用效果很差（+0.2），因为它只保留了分布但不能区分质量
Judge 单独用也不稳定，因为 score 跨输入不可比
SC + Judge 的组合才能同时保持多样性和区分质量
Distributional modeling 进一步防止 policy collapse

训练动态对比

训练动态

Majority voting 导致 entropy 快速崩溃（模型变得过度自信），而这个方法保持了更健康的 entropy 轨迹。这和 Self-Distillation 论文的发现遥相呼应——过度压制不确定性 = 退化。

跨模型泛化

在 Qwen2-VL-2B 到 Qwen2.5-VL-32B，InternVL3-8B，GLM-4.1V-9B，Qwen3-VL-8B 上都有效。甚至在已经经过 teacher distillation 的 Vision-R1 上还能进一步提升。

与 Post-training 五维度的关系

维度 1（验证器精度）的补充

这篇论文的核心贡献在于：当没有外部 verifier 时，如何构建有效的训练信号。它提出的三层方案是：

Self-consistency → 粗粒度信号（哪些答案被重复了）
Judge modulation → 细粒度质量区分（bounded，不过度依赖）
Distributional modeling → 防止 collapse

这是维度 1 的一个退化优雅降级方案：从 ground-truth verifier → approximate self-verification。

与 Self-Distillation 论文的联系

两篇论文今天同时出现在 HuggingFace daily papers 上，它们共同指向一个主题：保持不确定性 vs 压制不确定性。

Self-Distillation 论文：teacher 给了太多信息 → 压制 epistemic verbalization → 退化
本文：majority voting 压制了多样性 → entropy collapse → 退化
共同教训：post-training 的稳定性依赖于保持适度的不确定性

批判

Judge 的天花板：论文自己在 Limitations 中承认——Judge 是冻结的初始模型副本，它的评估能力就是瓶颈。随着 Actor 变强，Judge 可能变成噪声而非信号
训练成本：1.4x supervised GRPO 的时间（因为额外的 sampling + Judge scoring），不算太贵，但也不是免费的
只在数学推理上验证：虽然在 ChartQA 和 MMVP 上有泛化实验，但核心还是数学。对于更开放的任务，self-consistency 信号可能更弱
α=1 的选择：energy-based scaling 的温度参数 α=1 是否是最优的？论文没有做敏感性分析

实用启示

当你没有 ground-truth label 做 RLVR 时：

不要用 majority voting——它会放大早期错误
Self-consistency + Judge modulation + distributional modeling 是更好的替代
Judge 应该是冻结的初始模型，不是动态更新的（和 Self-Distillation 论文的"fixed teacher"结论一致）
8 个 rollout per question 是够用的

来源: When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning, OPPO AI Center + Tsinghua, 2026-03-24