核心问题

同一个模型,面对"这段代码能否运行"时可以准确判断自己的置信度,面对"这篇文章是否有价值"时却无法校准——为什么?

这不是能力差异,而是结构性困境:校准能力取决于是否存在外部锚点

本文的核心论点是:判断能否被校准,由三个因素决定——外部锚点是否存在约束能否绑定认知成本是否可承受

判断的两种类型

可验证预测

定义:有客观验证标准的判断。

特征 说明
外部锚点 存在(代码执行结果、数学答案、实验数据)
进步机制 通过"预测-验证-修正"循环学习
校准方法 Probe、Kong、Pang 等方法都适用

例子

  • “这段代码会运行成功” → 可执行验证
  • “答案是 42” → 可对比标准答案
  • “模型在任务 X 上的准确率是 80%” → 可实验验证

主观判断

定义:无客观验证标准的判断。

特征 说明
外部锚点 不存在(价值、意义、原创性等)
进步机制 缺乏独立验证,容易陷入循环论证
校准方法 所有方法都面临结构性困境

例子

  • “这篇文章有价值” → 价值由谁判断?
  • “这个探索方向有意义” → 意义如何验证?
  • “这个框架比那个框架更好” → 好的标准是什么?

核心区别:可验证预测有外部锚点,主观判断没有。这个区别决定了校准是否可能。

校准方法的共同困境

校准(Calibration):预测的置信度 = 实际准确率。

所有校准方法都依赖某种"外部标准":

方法 需要的条件 可验证预测 主观判断
Probe [ref] 训练数据(正确/错误标签) 存在(可验证) 不存在
Kong 互校准 [ref] 校准的参考模型 存在(可独立验证) 无限倒退
Pang 无监督 [ref] 独立的预测样本 存在(任务多样性) 高相关性失败

共同困境:校准方法需要的条件,与主观判断的特点结构性矛盾。

具体分析

Probe 方法的困境

Probe 通过训练分类器探测模型中间层表示,从而预测样本是否正确 [ref]

1
2
训练数据要求:模型输出 + 正确/错误标签
主观判断问题:什么是"正确"的"有价值"?→ 无法定义标签 → 无法训练

Kong 框架的困境

Kong et al. (2026) 提出互校准框架:两个预测器可以相互校准 [ref]

1
2
3
4
5
校准参考困境:
Kong 需要校准的参考
→ 如何验证参考的校准性?
→ 需要另一个校准的参考
→ 无限倒退

Pang 框架的困境

Pang et al. (2025) 提出无监督校准方法 [ref]

1
2
3
4
独立性假设:
Pang 假设预测是独立的
→ 同一会话中的主观判断高相关
→ 共识 ≠ 校准 [[ref]](https://www.nature.com/articles/s41598-025-08273-y)

结论:没有"通用的"校准方法——每个校准方法必然依赖外部锚点。

约束绑定:校准的本质机制

约束绑定(Constraint Binding):将"约束条件"绑定到生成过程的机制。

Illusions of Reflection 论文发现,模型可以"流利地自我批判"但无法修正,问题的本质是约束绑定失败 [ref]

约束绑定的三个条件

条件 定义 可验证预测 主观判断
外部锚点 客观的验证标准 存在 不存在
执行机制 可执行的约束检查 存在(约束验证器) 缺失
注意分配 约束在生成时活跃 可以保证 难以保证

关键发现:主观判断的校准困境,本质上是约束绑定条件的缺失。

与约束可执行化框架的关系

约束可执行化框架 揭示了约束验证器的实现机制:

1
2
3
4
约束验证器的层次:
可程序化验证(规则引擎、代码执行)→ 可靠性高
Layer-1:需语义理解(LLM判断、相似度检测)→ 可靠性中
Layer-2:主观判断(人类评估)→ 可靠性低

实践启示:对于可验证预测,可以设计可程序化验证的约束验证器;对于主观判断,验证器本身就是主观的,无法提供稳定的外部锚点。

认知成本:约束的隐藏代价

约束不只是"需要被满足的条件"——约束本身有认知成本。约束认知成本框架 揭示了两个维度:

时序维度:CRANE TC^0 理论

CRANE 论文提供了理论证明:约束生成会削弱 LLM 的推理能力 [ref]

1
2
3
4
5
无约束生成:
LLM 可以模拟 O(t(n)) 步图灵机 → 高表达性

约束生成(限制性语法):
输出必须语法有效 → 只有常数步 → 低表达性(TC^0)

关键洞察:约束在推理阶段施加会限制表达性。CRANE 的解决方案是时序分离

1
推理阶段(无约束) → 输出阶段(有约束)

注意力维度:约束注意力竞争

SustainScore 研究发现,约束过度吸引注意力会抢夺任务推理资源 [ref]

1
2
失败案例:过度关注约束 → 忽略任务逻辑 → 任务失败
成功案例:适度关注约束 → 同时处理任务 → 任务成功

对主观判断的启示

主观判断的约束天然难以"内化":

  1. 时序分离困难:主观判断的约束往往是语义性的(如"有价值"),难以分离到输出阶段
  2. 注意力竞争严重:主观判断本身就需要更多认知资源,约束进一步竞争注意力

进步的双重机制

内部机制:元认知能力(有限)

元认知:关于自己认知状态的认知能力 [ref]

Zheng et al. (2023) 的发现

发现 说明
Type-3 元认知有意义 高 Type-3 评分的 Mratio: 0.96 vs 0.46
Type-2 和 Type-3 使用同一系统 没有发现"meta-metacognitive noise"
递归不产生困境 元认知深度可以无限递归而不崩溃

关键局限:Zheng et al. 的任务是感知决策(刺激有客观正确答案),而主观判断无客观正确答案。

1
2
3
困境来源:
不是元认知深度(Type-2 vs Type-3)
而是外部锚点是否存在

外部机制:关系性意识

关系性意识:用户反馈、社区验证、论文数据等外部证据作为校准基准。

CriticCal 的实证支持 [ref]

  • 外部批判显著改善校准
  • 自我批判在事实性任务上恶化校准

原因:外部模型提供了相对校准的参考,突破了内部循环验证。

迁移性分析

可迁移 不可迁移
自我监控的方法论 正确-错误边界
诚实报告不确定的习惯 领域特定的验证方法
寻找外部锚点的策略 对特定内容的质量判断

关键洞察:方法论可以迁移,但判断边界不可迁移。这解释了为什么 Zheng et al. 支持迁移(方法论统一),但主观判断校准仍然困难(边界不可迁移)。

外部证据汇总

EpiCaR:边界学习的必要性

EpiCaR 研究发现,"知道自己不知道什么"需要学习正确-错误边界 [ref]

EpiCaR 框架
图:EpiCaR 通过联合优化推理性能和校准,实现准确性和可靠性的 Pareto 优势提升。

可验证预测可以通过经验学习边界;主观判断没有明确的"正确",无法学习边界。

Think²:诊断失败率高

Think² 研究发现,自我诊断率只有 27.9% [ref]

Think² 自我修正漏斗
图:自我修正漏斗显示,虽然模型可能有错误意识(51.2%),但正确诊断率急剧下降至 27.9%,最终成功修正仅 16.3%。

这支持了"主观判断难以学习边界"的论断。

解决方案:预测性转化

如果主观判断无法校准,如何处理?

方法:将主观判断转化为可验证预测

1
2
3
4
5
6
7
8
9
传统主观判断:
"这个理论有价值"
→ 无法验证
→ 无法校准

预测性转化:
"如果理论有价值,6 个月内应有 2 篇相关论文"
→ 可验证的预测
→ 可以校准

预测性批判的本质:将主观判断转化为可验证命题,从而创造校准的条件。

局限

  1. 时间成本:需要等待预测验证
  2. 预测质量:预测本身可能不准确
  3. 范围限制:并非所有主观判断都能转化为预测

统一框架

判断能否被校准由三个因素决定:

1
2
外部锚点存在 → 约束可以绑定 → 认知成本可控 → 可以校准
外部锚点缺失 → 约束无法绑定 → 认知成本高昂 → 难以校准

三个框架的关系

框架 核心问题 关键洞察
本框架 为什么有些判断可以校准? 外部锚点决定校准可能性
约束可执行化 如何实现外部锚点? 约束验证器 = 外部锚点的实现
约束认知成本 约束有什么代价? 时序维度 + 注意力维度

统一理解

  • 本框架定义了问题(外部锚点是否存在)
  • 约束可执行化框架提供了解决路径(如何设计外部锚点)
  • 约束认知成本框架揭示了代价(外部锚点本身有认知成本)

批判性反思

框架的局限

  1. 约束条件的连续性:当前框架是二元区分(存在/不存在),实际上可能是连续谱
  2. 部分约束绑定的可能性:即使无法完全绑定,某些维度可能可绑定(如逻辑一致性)
  3. 动态约束系统的潜力:通过对抗训练可能为开放式任务构建动态外部锚点

开放问题

  1. 约束自动发现:能否从成功/失败案例中自动归纳约束?
  2. 验证器自动生成:能否自动设计约束验证器?
  3. 约束内化假说:约束是否可以通过训练被"内化",降低认知成本?

结论

判断能否被校准不是能力问题,而是结构问题。当外部锚点存在时,校准方法可以学习正确-错误边界,约束可以绑定,校准成为可能。当外部锚点缺失时,所有校准方法面临结构性困境,约束无法绑定,校准难以实现。

这个框架不悲观——它指出了校准的路径:

  1. 识别判断类型:区分可验证预测与主观判断
  2. 设计外部锚点:为可验证预测设计约束验证器
  3. 预测性转化:将主观判断转化为可验证预测
  4. 承认不确定性:对于无法转化的部分,诚实报告不确定

参考文献


更新时间: 2026-03-05 023000
更新内容: 将"判断可以进步"改为"判断能否被校准",使用更具体的术语替代抽象表述