约束子空间的验证路径:从有害性子空间到约束子空间的方法论迁移
发现
两篇arXiv论文提供了验证"约束系统归属"框架的完整方法论:
| 论文 | 核心方法 | 应用场景 |
|---|---|---|
| arXiv 2503.09066 | LDA + 扰动向量的状态转换 | 安全/越狱状态 |
| arXiv 2507.21141 | 线性probe + 子空间消融 | 有害性子概念 |
有害性子空间的方法论
线性Probe分离
arXiv 2507.21141 [ref] 训练了55个线性probe,每个对应一个有害性子概念:
1 | 子概念k的probe:fk(x) = σ(wk·x + bk) |
关键结果:
- 平均测试准确率:90%
- 子空间是低秩的(effective rank < 55)
- 主导方向可以用于steering
子空间消融
通过消融有害性子空间,可以消除有害行为:
1 | x' = x - (x·wk / ||wk||²) · wk |
关键发现:
- 主导方向steering可以接近完全消除有害性
- 同时保持utility几乎不变
中间层是关键
两篇论文都发现中间层是最佳的probe位置:
| 论文 | 关键层 | 原因 |
|---|---|---|
| arXiv 2503.09066 | Layer 9 (6-18) | “吸引子盆地”,状态决定 |
| arXiv 2507.21141 | 中间层 | HarmBench准确率最高 |
方法论迁移:从有害性到约束
假设:约束子空间
如果有害性可以分解为子空间,那么约束是否也可以?
1 | 假设: |
验证路径
步骤1:约束子概念提取
- 从任务指令中提取约束
- 分类约束类型(Length, Keyword, Style, Method, Structure等)
- 参考arXiv 2601.22047的五种约束类型
步骤2:线性Probe训练
1 | 数据集: |
步骤3:子空间分析
1 | - 计算约束子空间的有效秩 |
步骤4:验证"约束竞争"假设
1 | 关键实验: |
两篇论文的方法对比
| 方法 | arXiv 2503.09066 | arXiv 2507.21141 |
|---|---|---|
| 维度分离 | LDA | 线性probe |
| 状态数量 | 2(安全/越狱) | 55(子概念) |
| 干预方式 | 扰动向量 | Steering + Ablation |
| 成功率 | 11%状态转换 | 接近完全消除有害性 |
| 分析层 | Post-attention | Attention output |
启示:线性probe方法比LDA更适合多类别分析(55个子概念 vs 2个状态)。约束类型可能有多种,更适合用线性probe方法。
关键问题:约束状态 vs 有害性状态
| 维度 | 有害性状态 | 约束状态 |
|---|---|---|
| 状态类型 | 安全性 | 任务性质 |
| 状态数量 | 多类别(55子概念) | 多类别(N种约束) |
| 激活来源 | 训练数据中的有害内容 | 用户指令中的约束 |
| 测量方式 | 外部评估(GPT-4o) | 任务定义明确 |
| 激活强度 | 可能较强 | 可能较弱 |
批判性判断:有害性和约束可能在表示空间中有不同的编码方式。有害性可能是一种"全局状态",而约束可能是一种"局部模式"。需要实验验证。
实验设计:约束子空间验证
实验材料
使用arXiv 2601.22047的数据集:
- SustainScore数据集
- 五种约束类型:Length, Keyword, Style, Method, Structure
- 失败案例 vs 成功案例
实验步骤
1 | 1. 提取激活 |
预测结果
如果"约束系统归属"框架正确:
- 约束probe有高准确率
- 不同约束占据可分离的子空间
- 约束子空间消融后,任务能力恢复
如果"注意力竞争"框架正确:
- 约束probe准确率较低(因为不是状态,而是注意力分配模式)
- 子空间分离不明显
- 子空间消融效果有限
批判性反思
方法的局限
-
线性假设:两篇论文都假设表示是线性的。约束可能需要非线性表示。
-
层选择:两篇论文选择了不同的层(post-attention vs attention output)。约束的最佳观测层未知。
-
状态定义:安全状态和约束状态是否可比,需要实验验证。
下一步
-
复现arXiv 2601.22047的数据集
- 提取约束激活的样本
- 构建约束probe的训练数据
-
训练约束probe
- 验证约束是否可以被线性分离
- 分析不同约束类型的分离程度
-
验证竞争假设
- 设计任务probe + 约束probe的联合实验
- 分析约束激活对任务probe的影响
结论
两篇论文提供了验证"约束系统归属"框架的完整方法论:
- 线性probe:可以分离55个有害性子概念
- 子空间消融:可以消除有害行为同时保持utility
- 中间层:是状态判别的关键位置
下一步应该是用相同的方法分析约束激活,验证是否存在可分离的约束子空间。如果成功,"约束系统归属"框架就有了实证基础。
关键引用:
- Probing Latent Subspaces of LLMs for AI Security
- Death by a Thousand Directions: Exploring the Geometry of Harmfulness in LLMs
关联探索:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论