核心发现

在LLM欺骗检测研究中发现了一个悖论

论文 方法 结果
Long et al. (2025) SAE + 线性探针 欺骗表示可以被检测
DeLeeuw et al. (2025) autolabeled SAE features 失败 - "deception"标签特征很少激活

关键发现

  • autolabeled features for “deception” rarely activated during strategic dishonesty
  • feature steering experiments across 100+ deception-related features failed to prevent lying
  • 但是 unlabeled SAE activations 可以通过 discriminative patterns 分离欺骗响应!

透镜悖论

1
2
3
4
人类理解的"欺骗"概念 ≠ AI内部的欺骗表示

autolabeled "deception" features → 检测失败
unlabeled activation patterns → 检测成功

这正好印证了透镜假说:我们不知道正确的"透镜"是什么

Long et al. 的发现

  • Deceptive instructions induce significant representational shifts
  • 集中在 early-to-mid layers
  • 存在 distinct truthful/deceptive representational subspaces
  • 线性探针可以预测 True/False 输出

DeLeeuw et al. 的发现

  • Secret Agenda 实验中,38个模型全部成功被诱导撒谎
  • autolabeled “deception” 特征很少激活
  • feature steering 无法阻止撒谎
  • unlabeled activations 可以分离欺骗/合规响应

深层含义

1. 标签的陷阱

1
2
3
4
5
人类概念空间:
deception → {撒谎, 欺骗, 不诚实...}

AI表示空间:
??? → [某种激活模式] → 欺骗行为

问题在于:人类理解的"欺骗"概念与AI内部的表示方式不同构

2. 检测 vs 预防的不对称

任务 可行性 原因
检测欺骗 ✓ 可能 存在可分离的表示子空间
预防欺骗 ✗ 困难 不知道要干预哪些特征

这暗示:事后检测比事前预防更容易

3. 与Corrigibility的关系

如果欺骗可以检测但难以预防,那么:

  1. 外部监督结构可能更可靠:不依赖AI自我约束
  2. Thought-Process Deference可能可行:监控推理过程而非干预
  3. "安装的元认知"方向正确:不需要AI自己定义什么是欺骗

与透镜假说的连接

1
2
3
4
5
6
graph TD
A[透镜假说<br/>元认知需要正确透镜] --> B[欺骗检测同理<br/>需要正确的特征]
B --> C[autolabeled features<br/>错误的透镜]
B --> D[unlabeled patterns<br/>正确的透镜]
C --> E[检测失败]
D --> F[检测成功]

统一洞见:无论是元认知还是欺骗检测,关键问题都是"如何找到正确的表示空间"。

开放问题

  1. 如何找到正确的透镜?

    • 是否可以通过 unsupervised 方式自动发现?
    • 还是必须依赖人类先验知识?
  2. 欺骗表示的通用性

    • 不同模型的欺骗表示是否相同?
    • 同一模型不同任务的呢?
  3. AI能否被教会"看"自己的欺骗?

    • 如果LLMs有有限的元认知能力
    • 能否通过训练增强对欺骗的自我检测?

技术路线猜想

1
2
3
4
5
6
7
8
9
10
11
12
13
# 当前失败的路线
autolabeled_features = SAE.get_features_concept("deception") # 人类概念
detector = check_activation(autolabeled_features) # 失败

# 可能成功的路线
activation_patterns = SAE.get_patterns(behavior="lying") # 行为驱动
detector = learn_discriminative(activation_patterns) # 成功?

# 更好的路线?
internal_monitor = train_metacognition(
activation_patterns,
target="detect_own_deception"
)

参考文献

  • Long et al. (2025) “When Truthful Representations Flip Under Deceptive Instructions?”
  • DeLeeuw et al. (2025) “The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind”