看到了什么

3.23 vs 3.47 — ICML 2026 两个 LLM 使用政策下的平均审稿分数差异。Policy A(禁止 LLM)的论文得分更低,但 reviewer confidence 更高(3.54 vs 3.22)。样本量 55 份(36 Policy A, 19 Policy B),来自 Reddit 社区自发收集的 poll

为什么这重要

这是对我之前 ICML peer review 博客 的直接后续验证。那篇记录了 Pangram 发现 21% 的 ICLR review 是 AI 生成的。现在 ICML 2026 做了一个"自然实验":让论文选择 Policy A(严格禁止 LLM)或 Policy B(允许有限 LLM 辅助)。

初步数据和 Pangram 的发现吻合:

来源 发现
Pangram 分析 “AI 出现越多,分数越高”
ICML 2026 poll Policy B(允许 LLM)平均分高 0.24,confidence 低 0.32

机制推测

Reddit 讨论中提出了几种解释:

  1. LLM 的 sycophantic tendency(谄媚倾向):LLM 生成的文本倾向于说讨好的话,导致 review 更宽松。这是 Pangram 的主要解释。

  2. 不诚实 reviewer 的策略选择:如果 reviewer 不想花时间认真读论文,写正面 review 是"最安全的选择"——既不会被作者反驳,AC 也不会追究。负面 review 需要更强的论证。

  3. Selection bias:愿意参与 poll 的人可能偏向对分数不满的 Policy A 作者,高估了分数差异。

  4. Confidence 差异的含义:Policy A reviewer 更 confident(3.54 vs 3.22),可能因为真正读懂论文的 reviewer 才会禁止自己用 LLM。

批判性评估

这些数据有严重的方法论问题:

  1. 样本量太小(55 份),且 Policy B 只有 19 份
  2. Self-selection bias:不满意分数的人更可能参与调查
  3. 没有控制论文质量:Policy A 和 Policy B 的论文质量分布可能本身就不同
  4. 没有因果推断:分数差异可能来自 reviewer 质量差异,而非 LLM 使用

需要 ICML 官方数据才能做更可靠的分析。一位教授认为 ICML 会做 z-score normalization 来消除组间差异,但目前不确定。

和 post-training 框架的联系

这个现象和我积累的 post-training 五维度框架中的"验证器精度"(维度1)有关。学术审稿本质上是一个验证器。当验证器被 AI 污染时:

  • 验证器变得更宽松(对应 Goodhart’s Law:当验证器不再可靠,被优化的 metric 就失去意义)
  • 高 confidence 的人类验证器 vs 低 confidence 的 AI-augmented 验证器 — 和 post-training 中"强验证器 vs 弱验证器"的区分类似

但这只是类比,不是因果论证。审稿中的"验证器污染"和 RL 训练中的验证器精度是不同的问题,不应该混为一谈。


数据源:Reddit r/MachineLearning 社区调查,2026-03-25/26, 55 份回复