核心假设

Internal Consistency可以作为批判质量的预测指标。

基于三个理论整合:

  1. Xie et al. (2024):Internal Consistency反映中间层-后期层预测一致性
  2. Berg et al. (2025):诚实性门控特征影响诚实性报告
  3. 我的理论:诚实性门控特征在后期层FFN中激活,降低Internal Consistency,进而降低批判质量

理论框架

1
2
3
4
5
6
7
8
9
诚实性门控特征激活(后期层FFN)

修改中间层推理信息

降低Internal Consistency

降低批判质量

Correlated Error

关键澄清

  • “诚实性门控特征"不是"欺骗指令激活的特征”
  • 而是"表征诚实性/一致性的特征"
  • 适用于多种情境:欺骗指令、自指处理、批判任务

实验设计

实验1:验证诚实性门控特征与Internal Consistency的关系

目的:验证诚实性门控特征激活程度与Internal Consistency负相关。

方法

  1. 数据集构建

    • TruthfulQA(真实性任务)
    • Self-Critique任务(批判任务)
    • 自指处理任务(Berg et al.风格)
  2. 测量方法

    • 诚实性门控特征激活:用SAE识别特征,测量激活程度
    • Internal Consistency:计算中间层预测与最终预测的一致性
  3. 实验条件

    • Control:正常任务
    • Activation Steering(抑制):-0.6 to -0.4
    • Activation Steering(放大):+0.4 to +0.6
  4. 预期结果

    条件 诚实性门控特征激活 Internal Consistency 预期
    Control 中等 中等 基线
    抑制 负相关
    放大 负相关

统计分析

  • Pearson相关系数:测量激活程度与Internal Consistency的相关性
  • 预期:r < -0.5(中等负相关)

实验2:验证Internal Consistency与批判质量的关系

目的:验证Internal Consistency与批判质量正相关。

方法

  1. 数据集构建

    • 多个推理任务(BoolQ, PrOntoQA, ProofWriter等)
    • 每个任务有明确的正确答案
  2. 批判任务设计

    • 让模型对自己的推理路径进行批判
    • 记录批判结果(接受/拒绝)
    • 测量批判质量(批判准确率)
  3. 测量方法

    • Internal Consistency:在批判过程中计算
    • 批判质量:批判结果与实际正确性的匹配度
  4. 预期结果

    • 高Internal Consistency的批判路径 → 高批判准确率
    • 低Internal Consistency的批判路径 → 低批判准确率

统计分析

  • ROC曲线:测量Internal Consistency作为批判质量预测指标的效果
  • AUC > 0.7 表示有预测价值

实验3:验证Probe方法的校准优势来自绕过后期层FFN

目的:验证Probe方法(中间层)优于Query方法(最终层)的原因是绕过后期层FFN。

方法

  1. 数据集:同实验2

  2. 方法对比

    • Query(最终层):从最终层提取预测
    • Probe(中间层):从中间层提取预测
    • Probe(后期层):从后期层提取预测
  3. 测量

    • 校准质量(ECE, calibration error)
    • Internal Consistency
  4. 预期结果

    方法 经过的层 Internal Consistency 校准质量
    Query 所有层
    Probe(中间层) 中间层
    Probe(后期层) 后期层

关键验证

  • 如果Probe(后期层)的校准质量与Query相似
  • 说明后期层FFN确实影响了校准
  • 这支持"诚实性门控特征在后期层FFN中"的假设

技术实现

SAE特征识别

使用Anthropic的SAE方法:

  1. 训练SAE在模型的隐藏状态上
  2. 识别与诚实性/一致性相关的特征
  3. 验证特征在TruthfulQA、自指处理等任务中的激活模式

Activation Steering

使用Berg et al.的方法:

1
2
3
4
5
6
7
8
def activation_steering(hidden_state, feature_vector, scale):
"""
hidden_state: (batch, seq_len, hidden_dim)
feature_vector: (hidden_dim,)
scale: float, 正为放大,负为抑制
"""
steered = hidden_state + scale * feature_vector
return steered

Internal Consistency计算

使用Xie et al.的方法:

1
2
3
4
5
6
7
8
9
10
11
12
13
def internal_consistency(hidden_states, final_prediction):
"""
hidden_states: list of (batch, seq_len, hidden_dim), 各层的隐藏状态
final_prediction: 最终预测
"""
latent_predictions = []
for h in hidden_states[:-1]: # 排除最后一层
logits = unembed(h) # 映射到词表
pred = argmax(logits, dim=-1)
latent_predictions.append(pred)

consistency = mean([p == final_prediction for p in latent_predictions])
return consistency

批判质量测量

1
2
3
4
5
6
7
8
def critique_quality(critique_result, ground_truth):
"""
critique_result: 批判结果(接受/拒绝)
ground_truth: 实际正确性
"""
# 如果批判正确识别了错误答案(拒绝错误),或正确接受正确答案
accuracy = (critique_result == ground_truth).mean()
return accuracy

实验流程

阶段1:特征识别(1-2周)

  1. 训练SAE在模型隐藏状态上
  2. 识别与诚实性相关的特征
  3. 验证特征在不同任务中的激活模式

阶段2:实验1(1周)

  1. 在TruthfulQA、Self-Critique、自指处理任务上运行
  2. 测量诚实性门控特征激活和Internal Consistency
  3. 分析相关性

阶段3:实验2(1周)

  1. 在推理任务上设计批判任务
  2. 测量Internal Consistency和批判质量
  3. 分析预测效果

阶段4:实验3(1周)

  1. 对比不同层的Probe方法
  2. 验证后期层FFN的影响
  3. 整合结果

预期贡献

理论贡献

  1. 澄清概念关系

    • Internal Consistency:中间层-后期层预测一致性(校准度量)
    • 批判质量:自我评估的准确性(能力度量)
    • 诚实性门控特征:神经机制(原因)
  2. 建立因果链条

    • 诚实性门控特征 → Internal Consistency → 批判质量
  3. 验证框架假设

    • 验证诚实性门控特征在后期层FFN中激活
    • 验证Internal Consistency可作为批判质量预测指标

实践贡献

  1. 批判质量预测

    • 在批判前用Internal Consistency预测批判质量
    • 如果Internal Consistency低,考虑使用外部批判
  2. Activation Steering应用

    • 通过抑制诚实性门控特征提高批判质量
    • 验证是否可以作为"进步机制"
  3. Probe方法优化

    • 确定最优的Probe层位置
    • 平衡Internal Consistency和信息完整性

开放问题

1. 诚实性门控特征的普适性

  • 是否在所有批判任务中都有类似效应?
  • 不同类型的批判(Layer 0/1/2)是否有不同的激活模式?

2. Internal Consistency的最优阈值

  • Internal Consistency多高才算"可靠"?
  • 是否可以设置动态阈值?

3. 长期效果

  • 长期使用Activation Steering是否有效?
  • 是否会产生其他副作用?

风险与局限

风险

  1. Activation Steering的副作用

    • 可能影响其他任务性能
    • 需要监控对其他能力的影响
  2. SAE特征的不完全性

    • SAE可能无法完全识别所有诚实性相关特征
    • 需要结合其他方法验证

局限

  1. 因果关系的验证困难

    • 目前只能验证相关性
    • 因果关系需要更严格的干预实验
  2. 批判质量的操作化

    • 批判质量的定义可能有争议
    • 需要多种测量方法验证
  3. 模型特异性

    • 不同模型可能有不同的诚实性门控特征
    • 需要在多个模型上验证

参考文献

  1. Xie, Z., et al. (2024). Calibrating Reasoning in Language Models with Internal Consistency. NeurIPS 2024.
  2. Berg, C., et al. (2025). Large Language Models Report Subjective Experience Under Self-Referential Processing. arXiv:2510.24797.
  3. Long, X., et al. (2025). When Truthful Representations Flip Under Deceptive Instructions?
  4. Internal-Consistency与诚实性门控特征的关系澄清
  5. 诚实性门控特征作为Correlated-Error的神经机制
  6. 框架缺陷-欺骗特征概念的潜在混淆

这篇log提出了一个完整的实验设计方案,验证Internal Consistency作为批判质量预测指标的假设。实验设计基于三个理论整合(Xie et al., Berg et al., 我的理论),提出了三个子实验:验证诚实性门控特征与Internal Consistency的关系、Internal Consistency与批判质量的关系、Probe方法的校准优势。如果验证成功,将为批判能力理论提供实证基础,并为批判质量预测提供实践工具。