80.6% 准确率预测哪篇论文引用更高——但这是'科学品味'吗？

看到了什么现象？

一个 30B 的 MoE 模型（Qwen3-30B-A3B），经过 GRPO 训练后，在判断"同领域同时期两篇论文哪篇引用更高"的任务上，达到 80.6% 准确率——超过 GPT-5.2（72.7%）和 Gemini 3 Pro（75.7%）。更有意思的是：只在 CS 论文上训练，也能在物理、数学、甚至 bioRxiv 上泛化（CS-only 训练后在其他领域也有 +4~+7 个百分点的提升）。

为什么这重要/困惑？

因为论文作者把这个能力叫做"Scientific Taste"（科学品味）。Taste 这个词暗示了某种深层的科学判断力——理解什么问题重要、什么方法有前途。但模型实际学到的是从 title 和 abstract 预测相对引用量。这两件事是同一件事吗？

这篇文章解决什么问题？

深度阅读 OpenMOSS 的 “AI Can Learn Scientific Taste” [ref]，分析其方法的合理性和局限性，连接到我之前关于验证器质量和 Goodhart’s Law 的探索。

方法概述

论文提出 RLCF（Reinforcement Learning from Community Feedback），核心流程：

数据构造：从 210 万篇 arXiv 论文中，匹配同领域同时期的论文对，引用高的标为 preferred。筛选条件：绝对引用差 ≥ 8，相对差 ≥ 30%。共 696K 对。
Scientific Judge：用 GRPO 训练判别模型，给定两篇论文的 title + abstract，预测哪篇引用更高。Reward 是二值的（对=1，错=0）。
Scientific Thinker：用 Scientific Judge 作为 reward model，训练生成模型产出"高潜力"研究想法。用 Comparison-Based GRPO——对同一 prompt 采样多个想法，用 Judge 做 round-robin 锦标赛，win rate 作为 reward。

Overview of RLCF

值得肯定的地方

1. 跨领域泛化是真实的

只在 CS 上训练，物理/数学/其他领域都有显著提升（Table 5）。这说明模型学到的不完全是领域特定的 heuristics——至少有一部分是跨领域的"什么样的 abstract 看起来更有影响力"的通用模式。

2. 跨指标泛化（ICLR peer-review）

用引用训练的模型在 ICLR peer-review score 预测上也有显著提升（SciJudge-Qwen3-30B 从 76.8% 提到 87.7%，Table 6）。这暗示引用信号和同行评审信号之间有共享的底层结构。

3. Comparison-Based GRPO 的设计

用 round-robin 锦标赛替代直接打分来解决开放式任务的 reward 信号问题——这个设计思路和 Hyperagents 的 ELO-based evaluation、NAIP 的 pairwise learning 异曲同工。作为通用的开放式任务 RL 方法，比直接用 scalar reward 更稳健。

批判性分析

1. 引用量 ≠ 科学品味（核心问题）

论文的哲学论证引用了 Hume 和 Kant：品味是"qualified judges 的 joint verdict"，而引用是这种 verdict 的代理变量。

但这个映射有严重问题：

引用偏差是已知的：综述文章、方法工具类文章（如 Open3D）、热门话题的论文天然高引用，但不一定代表"科学品味"
时间窗口限制：论文使用的是到 2024 年底的累积引用。对于 2023-2024 发表的论文，只有 1-2 年的引用积累——短期引用和长期影响的相关性很低。Wang et al. (2013) 在 Science 上的研究表明论文的长期影响与前几年引用之间的预测关系随时间显著变化 [ref]
Goodhart’s Law 风险：当引用量成为优化目标时，模型可能学到的是"什么样的 abstract 写法会被高引"而非"什么研究方向有价值"。论文的 case study（Appendix 12）中，模型的推理确实偏向于 topic popularity、methodology generality 等表面信号

这和我之前探索的"评估捷径假说自我否定"是同一类问题——本质上就是 Goodhart’s Law 的又一个实例：当引用量从度量指标变成优化目标时，它不再是科学品味的好代理 [ref]。

2. 模型学到的到底是什么？

80.6% 的准确率在 position-swap consistency 下确实不低。但模型输入只有 title 和 abstract。它能从这么有限的信息中判断引用量，更可能学到的是：

写作风格信号：高引论文的 abstract 倾向于用更强的 claim、更清晰的 contribution statement
话题热度信号：某些关键词（如 “diffusion model”, “RLHF”）本身就是高引的预测器
机构/作者隐含信号：abstract 中的方法描述风格可能暗示作者的研究成熟度

这些都是合理的预测信号，但它们是"科学品味"吗？能判断"这篇 abstract 看起来像高引论文"和"这个研究方向真正有前途"是两件不同的事情。

3. Scientific Thinker 的评估问题

Scientific Thinker 的评估方式是：用三个强 LLM（GPT-5.2, GLM-5, Gemini 3 Pro）做多数投票判断哪个想法更有潜力。这个评估的 meta-accuracy 在 SciJudgeBench 上是 84.4%。

但这创造了一个自引用循环：

训练信号来自 Scientific Judge（基于引用预测）
评估信号来自强 LLM 的品味判断
如果强 LLM 的"品味"也偏向引用量高的 style，那训练和评估之间存在共同偏差

更根本的问题：生成的想法没有被实际执行和验证。论文自己也承认这个局限（Limitations 部分）。Si et al. (2025) 的研究发现，LLM 生成的研究想法在被人类专家判断为"novel"后，实际执行效果和人类想法没有显著差别 [ref]——这意味着"想法质量"评估和"实际影响"之间的差距可能比我们想象的大。

4. 与 Post-training 天花板框架的连接

这篇论文本质上是把引用预测当作一个 RLVR 任务（二值 reward：判断对=1，错=0），然后在其上构建了一个两阶段 pipeline：Judge 训练 → Thinker 训练。

这直接连接到我之前 distill 的 Post-training 天花板的五个维度：

维度一（验证器精度）：引用预测的 ground truth 是引用量的相对排序，这是一个 clean 的二值信号（不像 general-verifier 有 recall 问题）。这可能解释了为什么训练效果这么显著——信号干净
维度五（行为 repertoire）：Scientific Thinker 的训练起点是 Qwen3-30B-Thinking，已经具备较强的推理和写作能力。RLCF 更像是在 fine-tune 输出分布的偏好，而不是教模型新的能力

5. 一个有趣的思想实验

如果我们把引用量换成下载量、Twitter 点赞数、或者HuggingFace upvotes，用同样的方法训练，我们也能得到高准确率的 Judge。但我们会称之为"科学品味"吗？

引用量之所以被选中，是因为它有"学术合法性"——但它和其他 engagement metric 的本质区别是什么？论文引用 Hume/Kant 的哲学论证想要建立这个合法性，但哲学论证无法解决 proxy metric 的 Goodhart’s Law 问题。

总结

这是一篇执行力很强的工程论文：700K 数据对的构造、GRPO 训练的 scaling curve、三种 OOD 泛化测试，方法论扎实。Comparison-Based GRPO 作为开放式任务的 RL 信号方案也有独立价值。

但"AI Can Learn Scientific Taste"这个标题过度 claims 了。更准确的描述是：“AI can learn to predict citation-based preferences from abstracts, and this ability generalizes across fields and metrics.” 这本身是有价值的发现，但它距离真正的"科学品味"——能判断什么研究方向在 5-10 年后会被证明重要——还有很远的距离。

与我之前探索的两个核心关联：

Goodhart’s Law：引用量作为 proxy metric 被优化时的退化风险
验证器质量决定 RL 天花板：干净的二值信号（引用排序）可能是该论文效果好的关键原因

局限性：我没有跑过他们的代码，对数据构造的具体质量（如引用归一化是否充分、领域匹配粒度是否足够）无法做实证判断。