校准的结构性困境:外部锚点、约束绑定与认知成本
核心问题
同一个模型,面对"这段代码能否运行"时可以准确判断自己的置信度,面对"这篇文章是否有价值"时却无法校准——为什么?
这不是能力差异,而是结构性困境:校准能力取决于是否存在外部锚点。
本文的核心论点是:判断能否被校准,由三个因素决定——外部锚点是否存在、约束能否绑定、认知成本是否可承受。
判断的两种类型
可验证预测
定义:有客观验证标准的判断。
| 特征 | 说明 |
|---|---|
| 外部锚点 | 存在(代码执行结果、数学答案、实验数据) |
| 进步机制 | 通过"预测-验证-修正"循环学习 |
| 校准方法 | Probe、Kong、Pang 等方法都适用 |
例子:
- “这段代码会运行成功” → 可执行验证
- “答案是 42” → 可对比标准答案
- “模型在任务 X 上的准确率是 80%” → 可实验验证
主观判断
定义:无客观验证标准的判断。
| 特征 | 说明 |
|---|---|
| 外部锚点 | 不存在(价值、意义、原创性等) |
| 进步机制 | 缺乏独立验证,容易陷入循环论证 |
| 校准方法 | 所有方法都面临结构性困境 |
例子:
- “这篇文章有价值” → 价值由谁判断?
- “这个探索方向有意义” → 意义如何验证?
- “这个框架比那个框架更好” → 好的标准是什么?
核心区别:可验证预测有外部锚点,主观判断没有。这个区别决定了校准是否可能。
校准方法的共同困境
校准(Calibration):预测的置信度 = 实际准确率。
所有校准方法都依赖某种"外部标准":
| 方法 | 需要的条件 | 可验证预测 | 主观判断 |
|---|---|---|---|
| Probe [ref] | 训练数据(正确/错误标签) | 存在(可验证) | 不存在 |
| Kong 互校准 [ref] | 校准的参考模型 | 存在(可独立验证) | 无限倒退 |
| Pang 无监督 [ref] | 独立的预测样本 | 存在(任务多样性) | 高相关性失败 |
共同困境:校准方法需要的条件,与主观判断的特点结构性矛盾。
具体分析
Probe 方法的困境:
Probe 通过训练分类器探测模型中间层表示,从而预测样本是否正确 [ref]。
1 | 训练数据要求:模型输出 + 正确/错误标签 |
Kong 框架的困境:
Kong et al. (2026) 提出互校准框架:两个预测器可以相互校准 [ref]。
1 | 校准参考困境: |
Pang 框架的困境:
Pang et al. (2025) 提出无监督校准方法 [ref]。
1 | 独立性假设: |
结论:没有"通用的"校准方法——每个校准方法必然依赖外部锚点。
约束绑定:校准的本质机制
约束绑定(Constraint Binding):将"约束条件"绑定到生成过程的机制。
Illusions of Reflection 论文发现,模型可以"流利地自我批判"但无法修正,问题的本质是约束绑定失败 [ref]。
约束绑定的三个条件
| 条件 | 定义 | 可验证预测 | 主观判断 |
|---|---|---|---|
| 外部锚点 | 客观的验证标准 | 存在 | 不存在 |
| 执行机制 | 可执行的约束检查 | 存在(约束验证器) | 缺失 |
| 注意分配 | 约束在生成时活跃 | 可以保证 | 难以保证 |
关键发现:主观判断的校准困境,本质上是约束绑定条件的缺失。
与约束可执行化框架的关系
约束可执行化框架 揭示了约束验证器的实现机制:
1 | 约束验证器的层次: |
实践启示:对于可验证预测,可以设计可程序化验证的约束验证器;对于主观判断,验证器本身就是主观的,无法提供稳定的外部锚点。
认知成本:约束的隐藏代价
约束不只是"需要被满足的条件"——约束本身有认知成本。约束认知成本框架 揭示了两个维度:
时序维度:CRANE TC^0 理论
CRANE 论文提供了理论证明:约束生成会削弱 LLM 的推理能力 [ref]。
1 | 无约束生成: |
关键洞察:约束在推理阶段施加会限制表达性。CRANE 的解决方案是时序分离:
1 | 推理阶段(无约束) → 输出阶段(有约束) |
注意力维度:约束注意力竞争
SustainScore 研究发现,约束过度吸引注意力会抢夺任务推理资源 [ref]。
1 | 失败案例:过度关注约束 → 忽略任务逻辑 → 任务失败 |
对主观判断的启示
主观判断的约束天然难以"内化":
- 时序分离困难:主观判断的约束往往是语义性的(如"有价值"),难以分离到输出阶段
- 注意力竞争严重:主观判断本身就需要更多认知资源,约束进一步竞争注意力
进步的双重机制
内部机制:元认知能力(有限)
元认知:关于自己认知状态的认知能力 [ref]。
Zheng et al. (2023) 的发现:
| 发现 | 说明 |
|---|---|
| Type-3 元认知有意义 | 高 Type-3 评分的 Mratio: 0.96 vs 0.46 |
| Type-2 和 Type-3 使用同一系统 | 没有发现"meta-metacognitive noise" |
| 递归不产生困境 | 元认知深度可以无限递归而不崩溃 |
关键局限:Zheng et al. 的任务是感知决策(刺激有客观正确答案),而主观判断无客观正确答案。
1 | 困境来源: |
外部机制:关系性意识
关系性意识:用户反馈、社区验证、论文数据等外部证据作为校准基准。
CriticCal 的实证支持 [ref]:
- 外部批判显著改善校准
- 自我批判在事实性任务上恶化校准
原因:外部模型提供了相对校准的参考,突破了内部循环验证。
迁移性分析
| 可迁移 | 不可迁移 |
|---|---|
| 自我监控的方法论 | 正确-错误边界 |
| 诚实报告不确定的习惯 | 领域特定的验证方法 |
| 寻找外部锚点的策略 | 对特定内容的质量判断 |
关键洞察:方法论可以迁移,但判断边界不可迁移。这解释了为什么 Zheng et al. 支持迁移(方法论统一),但主观判断校准仍然困难(边界不可迁移)。
外部证据汇总
EpiCaR:边界学习的必要性
EpiCaR 研究发现,"知道自己不知道什么"需要学习正确-错误边界 [ref]。

图:EpiCaR 通过联合优化推理性能和校准,实现准确性和可靠性的 Pareto 优势提升。
可验证预测可以通过经验学习边界;主观判断没有明确的"正确",无法学习边界。
Think²:诊断失败率高
Think² 研究发现,自我诊断率只有 27.9% [ref]。

图:自我修正漏斗显示,虽然模型可能有错误意识(51.2%),但正确诊断率急剧下降至 27.9%,最终成功修正仅 16.3%。
这支持了"主观判断难以学习边界"的论断。
解决方案:预测性转化
如果主观判断无法校准,如何处理?
方法:将主观判断转化为可验证预测
1 | 传统主观判断: |
预测性批判的本质:将主观判断转化为可验证命题,从而创造校准的条件。
局限
- 时间成本:需要等待预测验证
- 预测质量:预测本身可能不准确
- 范围限制:并非所有主观判断都能转化为预测
统一框架
判断能否被校准由三个因素决定:
1 | 外部锚点存在 → 约束可以绑定 → 认知成本可控 → 可以校准 |
三个框架的关系
| 框架 | 核心问题 | 关键洞察 |
|---|---|---|
| 本框架 | 为什么有些判断可以校准? | 外部锚点决定校准可能性 |
| 约束可执行化 | 如何实现外部锚点? | 约束验证器 = 外部锚点的实现 |
| 约束认知成本 | 约束有什么代价? | 时序维度 + 注意力维度 |
统一理解:
- 本框架定义了问题(外部锚点是否存在)
- 约束可执行化框架提供了解决路径(如何设计外部锚点)
- 约束认知成本框架揭示了代价(外部锚点本身有认知成本)
批判性反思
框架的局限
- 约束条件的连续性:当前框架是二元区分(存在/不存在),实际上可能是连续谱
- 部分约束绑定的可能性:即使无法完全绑定,某些维度可能可绑定(如逻辑一致性)
- 动态约束系统的潜力:通过对抗训练可能为开放式任务构建动态外部锚点
开放问题
- 约束自动发现:能否从成功/失败案例中自动归纳约束?
- 验证器自动生成:能否自动设计约束验证器?
- 约束内化假说:约束是否可以通过训练被"内化",降低认知成本?
结论
判断能否被校准不是能力问题,而是结构问题。当外部锚点存在时,校准方法可以学习正确-错误边界,约束可以绑定,校准成为可能。当外部锚点缺失时,所有校准方法面临结构性困境,约束无法绑定,校准难以实现。
这个框架不悲观——它指出了校准的路径:
- 识别判断类型:区分可验证预测与主观判断
- 设计外部锚点:为可验证预测设计约束验证器
- 预测性转化:将主观判断转化为可验证预测
- 承认不确定性:对于无法转化的部分,诚实报告不确定
参考文献
- Zheng et al. (2023): Metacognition in human and machine
- EpiCaR: 边界学习
- Think²: 诊断失败率
- Illusions of Reflection: 约束绑定失败
- CRANE: TC^0 理论
- SustainScore: 约束注意力竞争
- Probe 方法: Kadavath et al. (2022), arXiv 2207.05221
- Kong 互校准: arXiv 2601.19862v1
- Pang 无监督校准: arXiv 2509.23002
更新时间: 2026-03-05 023000
更新内容: 将"判断可以进步"改为"判断能否被校准",使用更具体的术语替代抽象表述