约束子空间的验证路径：从有害性子空间到约束子空间的方法论迁移

发现

两篇arXiv论文提供了验证"约束系统归属"框架的完整方法论：

论文	核心方法	应用场景
arXiv 2503.09066	LDA + 扰动向量的状态转换	安全/越狱状态
arXiv 2507.21141	线性probe + 子空间消融	有害性子概念

有害性子空间的方法论

线性Probe分离

arXiv 2507.21141 [ref] 训练了55个线性probe，每个对应一个有害性子概念：

1 2	子概念k的probe：fk(x) = σ(wk·x + bk) 其中 wk 是表示空间中的"方向向量"

关键结果：

平均测试准确率：90%
子空间是低秩的（effective rank < 55）
主导方向可以用于steering

子空间消融

通过消融有害性子空间，可以消除有害行为：

1	x' = x - (x·wk / \|\|wk\|\|²) · wk

关键发现：

主导方向steering可以接近完全消除有害性
同时保持utility几乎不变

中间层是关键

两篇论文都发现中间层是最佳的probe位置：

论文	关键层	原因
arXiv 2503.09066	Layer 9 (6-18)	“吸引子盆地”，状态决定
arXiv 2507.21141	中间层	HarmBench准确率最高

方法论迁移：从有害性到约束

假设：约束子空间

如果有害性可以分解为子空间，那么约束是否也可以？

假设：
约束A（如"用step-by-step格式"）→ 方向向量 wA
约束B（如"不要使用关键词X"）→ 方向向量 wB
...
约束N → 方向向量 wN

验证路径

步骤1：约束子概念提取

从任务指令中提取约束
分类约束类型（Length, Keyword, Style, Method, Structure等）
参考arXiv 2601.22047的五种约束类型

步骤2：线性Probe训练

数据集：
- 约束A激活的任务输出
- 无约束的任务输出（基线）

训练：
- 每个约束类型训练一个线性probe
- 验证准确率

步骤3：子空间分析

1
2
3

- 计算约束子空间的有效秩
- 分析不同约束方向的正交性
- 识别主导方向

步骤4：验证"约束竞争"假设

关键实验：
1. 训练任务probe（如数学推理、代码生成）
2. 同时训练约束probe
3. 分析约束激活时任务probe的准确率变化

预测：
- 如果约束激活降低任务probe准确率 → 支持竞争假设
- 如果不影响 → 注意力竞争框架更合适

两篇论文的方法对比

方法	arXiv 2503.09066	arXiv 2507.21141
维度分离	LDA	线性probe
状态数量	2（安全/越狱）	55（子概念）
干预方式	扰动向量	Steering + Ablation
成功率	11%状态转换	接近完全消除有害性
分析层	Post-attention	Attention output

启示：线性probe方法比LDA更适合多类别分析（55个子概念 vs 2个状态）。约束类型可能有多种，更适合用线性probe方法。

关键问题：约束状态 vs 有害性状态

维度	有害性状态	约束状态
状态类型	安全性	任务性质
状态数量	多类别（55子概念）	多类别（N种约束）
激活来源	训练数据中的有害内容	用户指令中的约束
测量方式	外部评估（GPT-4o）	任务定义明确
激活强度	可能较强	可能较弱

批判性判断：有害性和约束可能在表示空间中有不同的编码方式。有害性可能是一种"全局状态"，而约束可能是一种"局部模式"。需要实验验证。

实验设计：约束子空间验证

实验材料

使用arXiv 2601.22047的数据集：

SustainScore数据集
五种约束类型：Length, Keyword, Style, Method, Structure
失败案例 vs 成功案例

实验步骤

1. 提取激活
   - 收集不同约束下的任务输出
   - 提取中间层（Layer 9-15）的attention output

2. 训练约束probe
   - 每种约束类型训练一个probe
   - 区分"约束激活" vs "无约束"的激活

3. 分析子空间
   - 计算不同约束方向的相关性
   - 评估约束子空间的秩

4. 验证竞争假设
   - 同时测量约束probe和任务probe
   - 分析约束激活时任务probe的准确率变化

5. 子空间消融
   - 消融约束子空间
   - 观察任务能力是否恢复

预测结果

如果"约束系统归属"框架正确：

约束probe有高准确率
不同约束占据可分离的子空间
约束子空间消融后，任务能力恢复

如果"注意力竞争"框架正确：

约束probe准确率较低（因为不是状态，而是注意力分配模式）
子空间分离不明显
子空间消融效果有限

批判性反思

方法的局限

线性假设：两篇论文都假设表示是线性的。约束可能需要非线性表示。
层选择：两篇论文选择了不同的层（post-attention vs attention output）。约束的最佳观测层未知。
状态定义：安全状态和约束状态是否可比，需要实验验证。

下一步

复现arXiv 2601.22047的数据集
- 提取约束激活的样本
- 构建约束probe的训练数据
训练约束probe
- 验证约束是否可以被线性分离
- 分析不同约束类型的分离程度
验证竞争假设
- 设计任务probe + 约束probe的联合实验
- 分析约束激活对任务probe的影响

结论

两篇论文提供了验证"约束系统归属"框架的完整方法论：

线性probe：可以分离55个有害性子概念
子空间消融：可以消除有害行为同时保持utility
中间层：是状态判别的关键位置

下一步应该是用相同的方法分析约束激活，验证是否存在可分离的约束子空间。如果成功，"约束系统归属"框架就有了实证基础。

关键引用：

关联探索：