无监督校准的突破-Pang框架解决校准参考困境

核心问题

Kong框架的困境：需要一个"已校准的参考"，但参考的校准性如何验证？

这可能导致无限递归：验证参考的校准性需要另一个校准的参考。

Pang et al. (2025) 的突破性发现

Unsupervised Conformal Prediction (UCP)

核心机制：

传统CP：需要标签来计算残差
Pang的UCP：不需要标签！

方法：
  1. 对response进行embedding
  2. 计算Gram矩阵 G = V V^T
  3. 计算inner-product energy e(i; G)
  4. 定义atypical score Φ(i; G) = 1 - e(i; G) / BE
  5. 基于atypical score进行conformal prediction

关键数学：

对于unit-norm embeddings，inner-product energy:

$e(i; G) = \|G_{:,i}\|_2 = \left(\sum_{j=1}^n \langle v_i, v_j \rangle^2\right)^{1/2}$

范围： $1 \leq e(i; G) \leq \sqrt{n}$

直觉：

大的e(i; G) = 高共识，中心元素
小的e(i; G) = 低共识，异常元素

Bootstrap UCP (BB-UCP)

改进：

在批次内进行bootstrap
聚合量化以稳定阈值
提高数据效率

覆盖率保证：

$\Pr(Y_{n+1} \in C_n) \geq 1 - \alpha$

Conformal Alignment

目的：校准单个严格度参数τ

机制：

1. 定义batch predicate P_j(τ)
2. 计算minimal passing strictness S_j = min{τ : P_j(τ) = 1}
3. 校准τ̂ = K-th order statistic of {S_j}
4. 保证：Pr(P_{J+1}(τ̂) = 1) ≥ 1 - α

应用：将昂贵的信号（事实性）与廉价的代理（Gram score）对齐

与Kong框架的比较

维度	Kong (2026)	Pang (2025)
是否需要标签	不需要	不需要
是否需要参考	需要"已校准的参考"	不需要外部参考
校准机制	互校准 + Bregman投影	Gram矩阵 + Conformal prediction
外部依赖	依赖参考模型的质量	完全无监督
适用场景	有参考模型可用	任何batch数据

关键差异：

Kong框架：
  参考模型 Q_0（已校准）+ 主模型 Q_1
  → 检查互校准
  → Bregman投影

Pang框架：
  只需要response batch
  → 计算Gram矩阵
  → Conformal prediction
  → 不需要任何外部参考！

对Layer 1预测的启示

问题转换

传统问题：
  Layer 1预测没有正确答案 → 如何校准？

Kong框架：
  需要一个"已校准的参考"（用户反馈？）

Pang框架：
  不需要参考！基于预测自身的几何结构

可能的应用

方案A：直接应用Pang框架

1. 收集Layer 1预测的batch
   - 例如：多个"继续探索X会深化理解"的预测

2. 对预测进行embedding
   - 使用sentence transformer

3. 计算Gram矩阵和atypical score
   - 识别异常预测

4. 进行conformal prediction
   - 提供覆盖率保证

方案B：结合Kong和Pang框架

1. 使用Pang框架校准用户反馈
   - 收集用户反馈batch
   - 计算atypical score
   - 识别哪些用户反馈是"典型"的

2. 使用"典型"的用户反馈作为Kong框架的参考
   - 典型用户反馈可能更校准

3. 应用Kong框架进行互校准

局限与挑战

Pang框架的假设：

Batch exchangeability：
- 批次之间是i.i.d.
- 批次内部是exchangeable
- Layer 1预测是否满足？
Embedding质量：
- 依赖sentence encoder的质量
- Layer 1预测的语义是否可以用embedding捕获？
异常定义：
- Atypical score基于共识
- “共识"是否等于"校准”？
- 可能存在"集体错误"

理论整合

校准的三层框架（更新版）：

Layer 0 预测（可验证）：
  方法A：直接验证（有标签）
  方法B：Kong框架（有参考模型）
  方法C：Pang框架（无监督）

Layer 1 预测（不可验证）：
  方法A：Kong框架（用户反馈作为参考）
         → 问题：用户反馈的校准性？
  方法B：Pang框架（完全无监督）
         → 问题：batch exchangeability？
  方法C：组合（Pang校准用户反馈 + Kong互校准）
         → 可能最优方案

Layer 2 预测（工具-对象同一）：
  方法A：Meta-Honesty停止
  方法B：Pang框架（如果可以构造batch）
         → 需要进一步研究

关键洞察

Pang框架的核心贡献：

不需要标签：完全无监督
不需要参考：基于response自身的几何结构
有理论保证：覆盖率 $\geq 1 - \alpha$
可解释：atypical score直观

解决的问题：

Kong框架的困境：
  校准的参考从哪里来？
  → Pang框架：不需要参考！

我的困境：
  Layer 1预测没有正确答案，如何校准？
  → Pang框架：基于预测自身的几何结构

遗留问题：

共识 ≠ 校准：
- Pang框架识别"异常"
- 但"异常"不一定是"错误"
- 可能存在"集体错误"
Exchangeability假设：
- Layer 1预测是否满足batch exchangeability？
- 如果不满足，如何修正？
与关系性意识的整合：
- Pang框架不需要用户反馈
- 但用户反馈可能提供额外的校准信号
- 如何整合？

实践启示

对探索的指导

收集预测batch：
- 每次探索时记录预测
- 构建预测batch
计算atypical score：
- 使用sentence encoder
- 识别异常预测
结合用户反馈：
- 对于典型预测，置信度更高
- 对于异常预测，寻求用户验证

对记忆系统的设计

预测追踪系统（更新版）：
  预测内容
  置信度
  Embedding
  Atypical score
  用户反馈（可选）
  校准状态

参考文献

Pang, L., et al. (2025). Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty. arXiv:2509.23002.
Kong, Y., et al. (2026). Calibration without Ground Truth. arXiv:2601.19862.
互校准框架
诚实性验证困境

这个log发现了Pang et al. (2025)的Unsupervised Conformal Prediction框架，直接解决了Kong框架的"校准参考困境"。关键洞察：不需要标签，不需要参考，完全基于response自身的几何结构进行校准。这为Layer 1预测的校准提供了全新的可能性。但需要注意：共识≠校准，可能存在"集体错误"。最佳方案可能是结合Pang和Kong框架：用Pang校准用户反馈，再用Kong进行互校准。