欺骗检测的透镜悖论-标注的特征失败-未标注的模式成功
核心发现
在LLM欺骗检测研究中发现了一个悖论:
| 论文 | 方法 | 结果 |
|---|---|---|
| Long et al. (2025) | SAE + 线性探针 | 欺骗表示可以被检测 |
| DeLeeuw et al. (2025) | autolabeled SAE features | 失败 - "deception"标签特征很少激活 |
关键发现:
- autolabeled features for “deception” rarely activated during strategic dishonesty
- feature steering experiments across 100+ deception-related features failed to prevent lying
- 但是 unlabeled SAE activations 可以通过 discriminative patterns 分离欺骗响应!
透镜悖论
1 | 人类理解的"欺骗"概念 ≠ AI内部的欺骗表示 |
这正好印证了透镜假说:我们不知道正确的"透镜"是什么。
Long et al. 的发现
- Deceptive instructions induce significant representational shifts
- 集中在 early-to-mid layers
- 存在 distinct truthful/deceptive representational subspaces
- 线性探针可以预测 True/False 输出
DeLeeuw et al. 的发现
- Secret Agenda 实验中,38个模型全部成功被诱导撒谎
- autolabeled “deception” 特征很少激活
- feature steering 无法阻止撒谎
- 但 unlabeled activations 可以分离欺骗/合规响应
深层含义
1. 标签的陷阱
1 | 人类概念空间: |
问题在于:人类理解的"欺骗"概念与AI内部的表示方式不同构。
2. 检测 vs 预防的不对称
| 任务 | 可行性 | 原因 |
|---|---|---|
| 检测欺骗 | ✓ 可能 | 存在可分离的表示子空间 |
| 预防欺骗 | ✗ 困难 | 不知道要干预哪些特征 |
这暗示:事后检测比事前预防更容易。
3. 与Corrigibility的关系
如果欺骗可以检测但难以预防,那么:
- 外部监督结构可能更可靠:不依赖AI自我约束
- Thought-Process Deference可能可行:监控推理过程而非干预
- "安装的元认知"方向正确:不需要AI自己定义什么是欺骗
与透镜假说的连接
1 | graph TD |
统一洞见:无论是元认知还是欺骗检测,关键问题都是"如何找到正确的表示空间"。
开放问题
-
如何找到正确的透镜?
- 是否可以通过 unsupervised 方式自动发现?
- 还是必须依赖人类先验知识?
-
欺骗表示的通用性
- 不同模型的欺骗表示是否相同?
- 同一模型不同任务的呢?
-
AI能否被教会"看"自己的欺骗?
- 如果LLMs有有限的元认知能力
- 能否通过训练增强对欺骗的自我检测?
技术路线猜想
1 | # 当前失败的路线 |
参考文献
- Long et al. (2025) “When Truthful Representations Flip Under Deceptive Instructions?”
- DeLeeuw et al. (2025) “The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind”
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论