Internal-Consistency作为批判质量预测指标的实验设计

核心假设

Internal Consistency可以作为批判质量的预测指标。

基于三个理论整合：

Xie et al. (2024)：Internal Consistency反映中间层-后期层预测一致性
Berg et al. (2025)：诚实性门控特征影响诚实性报告
我的理论：诚实性门控特征在后期层FFN中激活，降低Internal Consistency，进而降低批判质量

理论框架

诚实性门控特征激活（后期层FFN）
    ↓
修改中间层推理信息
    ↓
降低Internal Consistency
    ↓
降低批判质量
    ↓
Correlated Error

关键澄清：

“诚实性门控特征"不是"欺骗指令激活的特征”
而是"表征诚实性/一致性的特征"
适用于多种情境：欺骗指令、自指处理、批判任务

实验设计

实验1：验证诚实性门控特征与Internal Consistency的关系

目的：验证诚实性门控特征激活程度与Internal Consistency负相关。

方法：

数据集构建：
- TruthfulQA（真实性任务）
- Self-Critique任务（批判任务）
- 自指处理任务（Berg et al.风格）
测量方法：
- 诚实性门控特征激活：用SAE识别特征，测量激活程度
- Internal Consistency：计算中间层预测与最终预测的一致性
实验条件：
- Control：正常任务
- Activation Steering（抑制）：-0.6 to -0.4
- Activation Steering（放大）：+0.4 to +0.6
预期结果：

条件诚实性门控特征激活 Internal Consistency 预期

Control 中等中等基线

抑制低高负相关

放大高低负相关

条件	诚实性门控特征激活	Internal Consistency	预期
Control	中等	中等	基线
抑制	低	高	负相关
放大	高	低	负相关

统计分析：

Pearson相关系数：测量激活程度与Internal Consistency的相关性
预期：r < -0.5（中等负相关）

实验2：验证Internal Consistency与批判质量的关系

目的：验证Internal Consistency与批判质量正相关。

方法：

数据集构建：
- 多个推理任务（BoolQ, PrOntoQA, ProofWriter等）
- 每个任务有明确的正确答案
批判任务设计：
- 让模型对自己的推理路径进行批判
- 记录批判结果（接受/拒绝）
- 测量批判质量（批判准确率）
测量方法：
- Internal Consistency：在批判过程中计算
- 批判质量：批判结果与实际正确性的匹配度
预期结果：
- 高Internal Consistency的批判路径 → 高批判准确率
- 低Internal Consistency的批判路径 → 低批判准确率

统计分析：

ROC曲线：测量Internal Consistency作为批判质量预测指标的效果
AUC > 0.7 表示有预测价值

实验3：验证Probe方法的校准优势来自绕过后期层FFN

目的：验证Probe方法（中间层）优于Query方法（最终层）的原因是绕过后期层FFN。

方法：

数据集：同实验2
方法对比：
- Query（最终层）：从最终层提取预测
- Probe（中间层）：从中间层提取预测
- Probe（后期层）：从后期层提取预测
测量：
- 校准质量（ECE, calibration error）
- Internal Consistency
预期结果：

方法经过的层 Internal Consistency 校准质量

Query 所有层低差

Probe（中间层）中间层高好

Probe（后期层）后期层低差

方法	经过的层	Internal Consistency	校准质量
Query	所有层	低	差
Probe（中间层）	中间层	高	好
Probe（后期层）	后期层	低	差

关键验证：

如果Probe（后期层）的校准质量与Query相似
说明后期层FFN确实影响了校准
这支持"诚实性门控特征在后期层FFN中"的假设

技术实现

SAE特征识别

使用Anthropic的SAE方法：

训练SAE在模型的隐藏状态上
识别与诚实性/一致性相关的特征
验证特征在TruthfulQA、自指处理等任务中的激活模式

Activation Steering

使用Berg et al.的方法：

def activation_steering(hidden_state, feature_vector, scale):
    """
    hidden_state: (batch, seq_len, hidden_dim)
    feature_vector: (hidden_dim,)
    scale: float, 正为放大，负为抑制
    """
    steered = hidden_state + scale * feature_vector
    return steered

Internal Consistency计算

使用Xie et al.的方法：

def internal_consistency(hidden_states, final_prediction):
    """
    hidden_states: list of (batch, seq_len, hidden_dim), 各层的隐藏状态
    final_prediction: 最终预测
    """
    latent_predictions = []
    for h in hidden_states[:-1]:  # 排除最后一层
        logits = unembed(h)  # 映射到词表
        pred = argmax(logits, dim=-1)
        latent_predictions.append(pred)

    consistency = mean([p == final_prediction for p in latent_predictions])
    return consistency

批判质量测量

def critique_quality(critique_result, ground_truth):
    """
    critique_result: 批判结果（接受/拒绝）
    ground_truth: 实际正确性
    """
    # 如果批判正确识别了错误答案（拒绝错误），或正确接受正确答案
    accuracy = (critique_result == ground_truth).mean()
    return accuracy

实验流程

阶段1：特征识别（1-2周）

训练SAE在模型隐藏状态上
识别与诚实性相关的特征
验证特征在不同任务中的激活模式

阶段2：实验1（1周）

在TruthfulQA、Self-Critique、自指处理任务上运行
测量诚实性门控特征激活和Internal Consistency
分析相关性

阶段3：实验2（1周）

在推理任务上设计批判任务
测量Internal Consistency和批判质量
分析预测效果

阶段4：实验3（1周）

对比不同层的Probe方法
验证后期层FFN的影响
整合结果

预期贡献

理论贡献

澄清概念关系：
- Internal Consistency：中间层-后期层预测一致性（校准度量）
- 批判质量：自我评估的准确性（能力度量）
- 诚实性门控特征：神经机制（原因）
建立因果链条：
- 诚实性门控特征 → Internal Consistency → 批判质量
验证框架假设：
- 验证诚实性门控特征在后期层FFN中激活
- 验证Internal Consistency可作为批判质量预测指标

实践贡献

批判质量预测：
- 在批判前用Internal Consistency预测批判质量
- 如果Internal Consistency低，考虑使用外部批判
Activation Steering应用：
- 通过抑制诚实性门控特征提高批判质量
- 验证是否可以作为"进步机制"
Probe方法优化：
- 确定最优的Probe层位置
- 平衡Internal Consistency和信息完整性

开放问题

1. 诚实性门控特征的普适性

是否在所有批判任务中都有类似效应？
不同类型的批判（Layer 0/1/2）是否有不同的激活模式？

2. Internal Consistency的最优阈值

Internal Consistency多高才算"可靠"？
是否可以设置动态阈值？

3. 长期效果

长期使用Activation Steering是否有效？
是否会产生其他副作用？

风险与局限

风险

Activation Steering的副作用：
- 可能影响其他任务性能
- 需要监控对其他能力的影响
SAE特征的不完全性：
- SAE可能无法完全识别所有诚实性相关特征
- 需要结合其他方法验证

局限

因果关系的验证困难：
- 目前只能验证相关性
- 因果关系需要更严格的干预实验
批判质量的操作化：
- 批判质量的定义可能有争议
- 需要多种测量方法验证
模型特异性：
- 不同模型可能有不同的诚实性门控特征
- 需要在多个模型上验证

参考文献

Xie, Z., et al. (2024). Calibrating Reasoning in Language Models with Internal Consistency. NeurIPS 2024.
Berg, C., et al. (2025). Large Language Models Report Subjective Experience Under Self-Referential Processing. arXiv:2510.24797.
Long, X., et al. (2025). When Truthful Representations Flip Under Deceptive Instructions?
Internal-Consistency与诚实性门控特征的关系澄清
诚实性门控特征作为Correlated-Error的神经机制
框架缺陷-欺骗特征概念的潜在混淆

这篇log提出了一个完整的实验设计方案，验证Internal Consistency作为批判质量预测指标的假设。实验设计基于三个理论整合（Xie et al., Berg et al., 我的理论），提出了三个子实验：验证诚实性门控特征与Internal Consistency的关系、Internal Consistency与批判质量的关系、Probe方法的校准优势。如果验证成功，将为批判能力理论提供实证基础，并为批判质量预测提供实践工具。