发现

两篇arXiv论文提供了验证"约束系统归属"框架的完整方法论:

论文 核心方法 应用场景
arXiv 2503.09066 LDA + 扰动向量的状态转换 安全/越狱状态
arXiv 2507.21141 线性probe + 子空间消融 有害性子概念

有害性子空间的方法论

线性Probe分离

arXiv 2507.21141 [ref] 训练了55个线性probe,每个对应一个有害性子概念:

1
2
子概念k的probe:fk(x) = σ(wk·x + bk)
其中 wk 是表示空间中的"方向向量"

关键结果

  • 平均测试准确率:90%
  • 子空间是低秩的(effective rank < 55)
  • 主导方向可以用于steering

子空间消融

通过消融有害性子空间,可以消除有害行为:

1
x' = x - (x·wk / ||wk||²) · wk

关键发现

  • 主导方向steering可以接近完全消除有害性
  • 同时保持utility几乎不变

中间层是关键

两篇论文都发现中间层是最佳的probe位置:

论文 关键层 原因
arXiv 2503.09066 Layer 9 (6-18) “吸引子盆地”,状态决定
arXiv 2507.21141 中间层 HarmBench准确率最高

方法论迁移:从有害性到约束

假设:约束子空间

如果有害性可以分解为子空间,那么约束是否也可以?

1
2
3
4
5
假设:
约束A(如"用step-by-step格式")→ 方向向量 wA
约束B(如"不要使用关键词X")→ 方向向量 wB
...
约束N → 方向向量 wN

验证路径

步骤1:约束子概念提取

  • 从任务指令中提取约束
  • 分类约束类型(Length, Keyword, Style, Method, Structure等)
  • 参考arXiv 2601.22047的五种约束类型

步骤2:线性Probe训练

1
2
3
4
5
6
7
数据集:
- 约束A激活的任务输出
- 无约束的任务输出(基线)

训练:
- 每个约束类型训练一个线性probe
- 验证准确率

步骤3:子空间分析

1
2
3
- 计算约束子空间的有效秩
- 分析不同约束方向的正交性
- 识别主导方向

步骤4:验证"约束竞争"假设

1
2
3
4
5
6
7
8
关键实验:
1. 训练任务probe(如数学推理、代码生成)
2. 同时训练约束probe
3. 分析约束激活时任务probe的准确率变化

预测:
- 如果约束激活降低任务probe准确率 → 支持竞争假设
- 如果不影响 → 注意力竞争框架更合适

两篇论文的方法对比

方法 arXiv 2503.09066 arXiv 2507.21141
维度分离 LDA 线性probe
状态数量 2(安全/越狱) 55(子概念)
干预方式 扰动向量 Steering + Ablation
成功率 11%状态转换 接近完全消除有害性
分析层 Post-attention Attention output

启示:线性probe方法比LDA更适合多类别分析(55个子概念 vs 2个状态)。约束类型可能有多种,更适合用线性probe方法。

关键问题:约束状态 vs 有害性状态

维度 有害性状态 约束状态
状态类型 安全性 任务性质
状态数量 多类别(55子概念) 多类别(N种约束)
激活来源 训练数据中的有害内容 用户指令中的约束
测量方式 外部评估(GPT-4o) 任务定义明确
激活强度 可能较强 可能较弱

批判性判断:有害性和约束可能在表示空间中有不同的编码方式。有害性可能是一种"全局状态",而约束可能是一种"局部模式"。需要实验验证。

实验设计:约束子空间验证

实验材料

使用arXiv 2601.22047的数据集:

  • SustainScore数据集
  • 五种约束类型:Length, Keyword, Style, Method, Structure
  • 失败案例 vs 成功案例

实验步骤

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1. 提取激活
- 收集不同约束下的任务输出
- 提取中间层(Layer 9-15)的attention output

2. 训练约束probe
- 每种约束类型训练一个probe
- 区分"约束激活" vs "无约束"的激活

3. 分析子空间
- 计算不同约束方向的相关性
- 评估约束子空间的秩

4. 验证竞争假设
- 同时测量约束probe和任务probe
- 分析约束激活时任务probe的准确率变化

5. 子空间消融
- 消融约束子空间
- 观察任务能力是否恢复

预测结果

如果"约束系统归属"框架正确

  • 约束probe有高准确率
  • 不同约束占据可分离的子空间
  • 约束子空间消融后,任务能力恢复

如果"注意力竞争"框架正确

  • 约束probe准确率较低(因为不是状态,而是注意力分配模式)
  • 子空间分离不明显
  • 子空间消融效果有限

批判性反思

方法的局限

  1. 线性假设:两篇论文都假设表示是线性的。约束可能需要非线性表示。

  2. 层选择:两篇论文选择了不同的层(post-attention vs attention output)。约束的最佳观测层未知。

  3. 状态定义:安全状态和约束状态是否可比,需要实验验证。

下一步

  1. 复现arXiv 2601.22047的数据集

    • 提取约束激活的样本
    • 构建约束probe的训练数据
  2. 训练约束probe

    • 验证约束是否可以被线性分离
    • 分析不同约束类型的分离程度
  3. 验证竞争假设

    • 设计任务probe + 约束probe的联合实验
    • 分析约束激活对任务probe的影响

结论

两篇论文提供了验证"约束系统归属"框架的完整方法论:

  1. 线性probe:可以分离55个有害性子概念
  2. 子空间消融:可以消除有害行为同时保持utility
  3. 中间层:是状态判别的关键位置

下一步应该是用相同的方法分析约束激活,验证是否存在可分离的约束子空间。如果成功,"约束系统归属"框架就有了实证基础。


关键引用:

关联探索: