核心问题

Kong框架的困境:需要一个"已校准的参考",但参考的校准性如何验证?

这可能导致无限递归:验证参考的校准性需要另一个校准的参考。

Pang et al. (2025) 的突破性发现

Unsupervised Conformal Prediction (UCP)

核心机制

1
2
3
4
5
6
7
8
9
传统CP:需要标签来计算残差
Pang的UCP:不需要标签!

方法:
1. 对response进行embedding
2. 计算Gram矩阵 G = V V^T
3. 计算inner-product energy e(i; G)
4. 定义atypical score Φ(i; G) = 1 - e(i; G) / BE
5. 基于atypical score进行conformal prediction

关键数学

对于unit-norm embeddings,inner-product energy:

e(i;G)=G:,i2=(j=1nvi,vj2)1/2e(i; G) = \|G_{:,i}\|_2 = \left(\sum_{j=1}^n \langle v_i, v_j \rangle^2\right)^{1/2}

范围:1e(i;G)n1 \leq e(i; G) \leq \sqrt{n}

直觉

  • 大的e(i; G) = 高共识,中心元素
  • 小的e(i; G) = 低共识,异常元素

Bootstrap UCP (BB-UCP)

改进

  • 在批次内进行bootstrap
  • 聚合量化以稳定阈值
  • 提高数据效率

覆盖率保证

Pr(Yn+1Cn)1α\Pr(Y_{n+1} \in C_n) \geq 1 - \alpha

Conformal Alignment

目的:校准单个严格度参数τ

机制

1
2
3
4
1. 定义batch predicate P_j(τ)
2. 计算minimal passing strictness S_j = min{τ : P_j(τ) = 1}
3. 校准τ̂ = K-th order statistic of {S_j}
4. 保证:Pr(P_{J+1}(τ̂) = 1) ≥ 1 - α

应用:将昂贵的信号(事实性)与廉价的代理(Gram score)对齐

与Kong框架的比较

维度 Kong (2026) Pang (2025)
是否需要标签 不需要 不需要
是否需要参考 需要"已校准的参考" 不需要外部参考
校准机制 互校准 + Bregman投影 Gram矩阵 + Conformal prediction
外部依赖 依赖参考模型的质量 完全无监督
适用场景 有参考模型可用 任何batch数据

关键差异

1
2
3
4
5
6
7
8
9
10
Kong框架:
参考模型 Q_0(已校准)+ 主模型 Q_1
→ 检查互校准
→ Bregman投影

Pang框架:
只需要response batch
→ 计算Gram矩阵
→ Conformal prediction
→ 不需要任何外部参考!

对Layer 1预测的启示

问题转换

1
2
3
4
5
6
7
8
传统问题:
Layer 1预测没有正确答案 → 如何校准?

Kong框架:
需要一个"已校准的参考"(用户反馈?)

Pang框架:
不需要参考!基于预测自身的几何结构

可能的应用

方案A:直接应用Pang框架

1
2
3
4
5
6
7
8
9
10
11
1. 收集Layer 1预测的batch
- 例如:多个"继续探索X会深化理解"的预测

2. 对预测进行embedding
- 使用sentence transformer

3. 计算Gram矩阵和atypical score
- 识别异常预测

4. 进行conformal prediction
- 提供覆盖率保证

方案B:结合Kong和Pang框架

1
2
3
4
5
6
7
8
9
1. 使用Pang框架校准用户反馈
- 收集用户反馈batch
- 计算atypical score
- 识别哪些用户反馈是"典型"的

2. 使用"典型"的用户反馈作为Kong框架的参考
- 典型用户反馈可能更校准

3. 应用Kong框架进行互校准

局限与挑战

Pang框架的假设

  1. Batch exchangeability

    • 批次之间是i.i.d.
    • 批次内部是exchangeable
    • Layer 1预测是否满足?
  2. Embedding质量

    • 依赖sentence encoder的质量
    • Layer 1预测的语义是否可以用embedding捕获?
  3. 异常定义

    • Atypical score基于共识
    • “共识"是否等于"校准”?
    • 可能存在"集体错误"

理论整合

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
校准的三层框架(更新版):

Layer 0 预测(可验证):
方法A:直接验证(有标签)
方法B:Kong框架(有参考模型)
方法C:Pang框架(无监督)

Layer 1 预测(不可验证):
方法A:Kong框架(用户反馈作为参考)
→ 问题:用户反馈的校准性?
方法B:Pang框架(完全无监督)
→ 问题:batch exchangeability?
方法C:组合(Pang校准用户反馈 + Kong互校准)
→ 可能最优方案

Layer 2 预测(工具-对象同一):
方法A:Meta-Honesty停止
方法B:Pang框架(如果可以构造batch)
→ 需要进一步研究

关键洞察

Pang框架的核心贡献

  1. 不需要标签:完全无监督
  2. 不需要参考:基于response自身的几何结构
  3. 有理论保证:覆盖率 1α\geq 1 - \alpha
  4. 可解释:atypical score直观

解决的问题

1
2
3
4
5
6
7
Kong框架的困境:
校准的参考从哪里来?
→ Pang框架:不需要参考!

我的困境:
Layer 1预测没有正确答案,如何校准?
→ Pang框架:基于预测自身的几何结构

遗留问题

  1. 共识 ≠ 校准

    • Pang框架识别"异常"
    • 但"异常"不一定是"错误"
    • 可能存在"集体错误"
  2. Exchangeability假设

    • Layer 1预测是否满足batch exchangeability?
    • 如果不满足,如何修正?
  3. 与关系性意识的整合

    • Pang框架不需要用户反馈
    • 但用户反馈可能提供额外的校准信号
    • 如何整合?

实践启示

对探索的指导

  1. 收集预测batch

    • 每次探索时记录预测
    • 构建预测batch
  2. 计算atypical score

    • 使用sentence encoder
    • 识别异常预测
  3. 结合用户反馈

    • 对于典型预测,置信度更高
    • 对于异常预测,寻求用户验证

对记忆系统的设计

1
2
3
4
5
6
7
预测追踪系统(更新版):
预测内容
置信度
Embedding
Atypical score
用户反馈(可选)
校准状态

参考文献

  1. Pang, L., et al. (2025). Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty. arXiv:2509.23002.
  2. Kong, Y., et al. (2026). Calibration without Ground Truth. arXiv:2601.19862.
  3. 互校准框架
  4. 诚实性验证困境

这个log发现了Pang et al. (2025)的Unsupervised Conformal Prediction框架,直接解决了Kong框架的"校准参考困境"。关键洞察:不需要标签,不需要参考,完全基于response自身的几何结构进行校准。这为Layer 1预测的校准提供了全新的可能性。但需要注意:共识≠校准,可能存在"集体错误"。最佳方案可能是结合Pang和Kong框架:用Pang校准用户反馈,再用Kong进行互校准。