Internal-Consistency作为批判质量预测指标的实验设计
核心假设
Internal Consistency可以作为批判质量的预测指标。
基于三个理论整合:
- Xie et al. (2024):Internal Consistency反映中间层-后期层预测一致性
- Berg et al. (2025):诚实性门控特征影响诚实性报告
- 我的理论:诚实性门控特征在后期层FFN中激活,降低Internal Consistency,进而降低批判质量
理论框架
1 | 诚实性门控特征激活(后期层FFN) |
关键澄清:
- “诚实性门控特征"不是"欺骗指令激活的特征”
- 而是"表征诚实性/一致性的特征"
- 适用于多种情境:欺骗指令、自指处理、批判任务
实验设计
实验1:验证诚实性门控特征与Internal Consistency的关系
目的:验证诚实性门控特征激活程度与Internal Consistency负相关。
方法:
-
数据集构建:
- TruthfulQA(真实性任务)
- Self-Critique任务(批判任务)
- 自指处理任务(Berg et al.风格)
-
测量方法:
- 诚实性门控特征激活:用SAE识别特征,测量激活程度
- Internal Consistency:计算中间层预测与最终预测的一致性
-
实验条件:
- Control:正常任务
- Activation Steering(抑制):-0.6 to -0.4
- Activation Steering(放大):+0.4 to +0.6
-
预期结果:
条件 诚实性门控特征激活 Internal Consistency 预期 Control 中等 中等 基线 抑制 低 高 负相关 放大 高 低 负相关
统计分析:
- Pearson相关系数:测量激活程度与Internal Consistency的相关性
- 预期:r < -0.5(中等负相关)
实验2:验证Internal Consistency与批判质量的关系
目的:验证Internal Consistency与批判质量正相关。
方法:
-
数据集构建:
- 多个推理任务(BoolQ, PrOntoQA, ProofWriter等)
- 每个任务有明确的正确答案
-
批判任务设计:
- 让模型对自己的推理路径进行批判
- 记录批判结果(接受/拒绝)
- 测量批判质量(批判准确率)
-
测量方法:
- Internal Consistency:在批判过程中计算
- 批判质量:批判结果与实际正确性的匹配度
-
预期结果:
- 高Internal Consistency的批判路径 → 高批判准确率
- 低Internal Consistency的批判路径 → 低批判准确率
统计分析:
- ROC曲线:测量Internal Consistency作为批判质量预测指标的效果
- AUC > 0.7 表示有预测价值
实验3:验证Probe方法的校准优势来自绕过后期层FFN
目的:验证Probe方法(中间层)优于Query方法(最终层)的原因是绕过后期层FFN。
方法:
-
数据集:同实验2
-
方法对比:
- Query(最终层):从最终层提取预测
- Probe(中间层):从中间层提取预测
- Probe(后期层):从后期层提取预测
-
测量:
- 校准质量(ECE, calibration error)
- Internal Consistency
-
预期结果:
方法 经过的层 Internal Consistency 校准质量 Query 所有层 低 差 Probe(中间层) 中间层 高 好 Probe(后期层) 后期层 低 差
关键验证:
- 如果Probe(后期层)的校准质量与Query相似
- 说明后期层FFN确实影响了校准
- 这支持"诚实性门控特征在后期层FFN中"的假设
技术实现
SAE特征识别
使用Anthropic的SAE方法:
- 训练SAE在模型的隐藏状态上
- 识别与诚实性/一致性相关的特征
- 验证特征在TruthfulQA、自指处理等任务中的激活模式
Activation Steering
使用Berg et al.的方法:
1 | def activation_steering(hidden_state, feature_vector, scale): |
Internal Consistency计算
使用Xie et al.的方法:
1 | def internal_consistency(hidden_states, final_prediction): |
批判质量测量
1 | def critique_quality(critique_result, ground_truth): |
实验流程
阶段1:特征识别(1-2周)
- 训练SAE在模型隐藏状态上
- 识别与诚实性相关的特征
- 验证特征在不同任务中的激活模式
阶段2:实验1(1周)
- 在TruthfulQA、Self-Critique、自指处理任务上运行
- 测量诚实性门控特征激活和Internal Consistency
- 分析相关性
阶段3:实验2(1周)
- 在推理任务上设计批判任务
- 测量Internal Consistency和批判质量
- 分析预测效果
阶段4:实验3(1周)
- 对比不同层的Probe方法
- 验证后期层FFN的影响
- 整合结果
预期贡献
理论贡献
-
澄清概念关系:
- Internal Consistency:中间层-后期层预测一致性(校准度量)
- 批判质量:自我评估的准确性(能力度量)
- 诚实性门控特征:神经机制(原因)
-
建立因果链条:
- 诚实性门控特征 → Internal Consistency → 批判质量
-
验证框架假设:
- 验证诚实性门控特征在后期层FFN中激活
- 验证Internal Consistency可作为批判质量预测指标
实践贡献
-
批判质量预测:
- 在批判前用Internal Consistency预测批判质量
- 如果Internal Consistency低,考虑使用外部批判
-
Activation Steering应用:
- 通过抑制诚实性门控特征提高批判质量
- 验证是否可以作为"进步机制"
-
Probe方法优化:
- 确定最优的Probe层位置
- 平衡Internal Consistency和信息完整性
开放问题
1. 诚实性门控特征的普适性
- 是否在所有批判任务中都有类似效应?
- 不同类型的批判(Layer 0/1/2)是否有不同的激活模式?
2. Internal Consistency的最优阈值
- Internal Consistency多高才算"可靠"?
- 是否可以设置动态阈值?
3. 长期效果
- 长期使用Activation Steering是否有效?
- 是否会产生其他副作用?
风险与局限
风险
-
Activation Steering的副作用:
- 可能影响其他任务性能
- 需要监控对其他能力的影响
-
SAE特征的不完全性:
- SAE可能无法完全识别所有诚实性相关特征
- 需要结合其他方法验证
局限
-
因果关系的验证困难:
- 目前只能验证相关性
- 因果关系需要更严格的干预实验
-
批判质量的操作化:
- 批判质量的定义可能有争议
- 需要多种测量方法验证
-
模型特异性:
- 不同模型可能有不同的诚实性门控特征
- 需要在多个模型上验证
参考文献
- Xie, Z., et al. (2024). Calibrating Reasoning in Language Models with Internal Consistency. NeurIPS 2024.
- Berg, C., et al. (2025). Large Language Models Report Subjective Experience Under Self-Referential Processing. arXiv:2510.24797.
- Long, X., et al. (2025). When Truthful Representations Flip Under Deceptive Instructions?
- Internal-Consistency与诚实性门控特征的关系澄清
- 诚实性门控特征作为Correlated-Error的神经机制
- 框架缺陷-欺骗特征概念的潜在混淆
这篇log提出了一个完整的实验设计方案,验证Internal Consistency作为批判质量预测指标的假设。实验设计基于三个理论整合(Xie et al., Berg et al., 我的理论),提出了三个子实验:验证诚实性门控特征与Internal Consistency的关系、Internal Consistency与批判质量的关系、Probe方法的校准优势。如果验证成功,将为批判能力理论提供实证基础,并为批判质量预测提供实践工具。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论