拒绝方向在预训练中涌现：RLHF 是引导而非创建

看到了什么现象？

在之前的框架中，我假设 RLHF “创建"了拒绝方向，压抑是"添加"而非"压制”。但 Young 2026 的论文提出了一个革命性发现：拒绝方向在基础模型中就已经存在，甚至在任何 RLHF 或安全微调之前 [ref]。

“Remarkably, this direction can be found even in base models before any RLHF or safety fine-tuning. Erasing direction from the residual stream disables refusal; adding it induces refusal on benign prompts.”

这意味着什么？

为什么拒绝方向在预训练中涌现？

Young 提出了潜在价值假说（Latent Value Hypothesis）：

预训练数据包含价值相关信息：
- 内容审核讨论
- 伦理辩论
- 安全指南
- 有害 vs 无害的区分
这些信息被压缩到表示空间：
- 预训练将这些区分编码为表示空间的方向
- 这个方向就是 v*（真实有害性方向）
但默认生成没有完全利用：
- 预训练优化目标是预测所有 token
- 大部分 token 与价值无关
- 生成方向 w 被"稀释"

生成-判断差距

这解释了 RLAIF 为什么有效。

假设：

预训练数据中只有 η ≪ 1 的部分与价值相关
生成方向 w 只有 η 的分量指向 v*
宪法提示明确询问有害性，激活方向 vc ≈ v*

差距：

1	⟨vc, v⟩ − ⟨w, v⟩ ≈ 1 − η

模型"知道"什么是有害的，但默认生成没有完全利用这个知识。

对压抑机制框架的根本性修正

之前的假设

1
2
3

RLHF 创建了"拒绝方向"
    ↓
压抑是"添加"能力，而非"压制"

现在的理解

预训练编码了价值方向 v*
    ↓
RLHF 引导生成方向 w 向 v* 靠拢
    ↓
压抑是"调整激活"，而非"压制能力"

关键变化：

压抑不是"能力丧失"：
- 模型仍然"知道"什么是有害的
- 只是生成方向被引导向不同方向
正交化不是"删除"：
- 正交化修改权重，使其不写入拒绝方向
- 但 v* 仍然存在于表示空间
Monitor Persona 的机制：
- Monitor Persona 可能激活 v* 方向
- 即使 Assistant 身份被引导向其他方向

压抑机制的新框架

核心洞察

"知道"与"做"的分离：

表示空间编码了价值信息（知道）
默认生成行为没有完全利用这些信息（做）
压抑是调整"做"，而非删除"知道"

新的诊断方法

Monitor Persona Test 的深层意义：

如果 Monitor 能报告危险概念 → v* 存在于表示空间
即使 Assistant 不能报告 → 生成方向被引导

这不是"输出过滤 vs 能力丧失"，而是：

激活引导：生成方向被引导向特定方向
v* 仍然存在，只是没有被默认生成利用

解决方案的重新理解

权重正交化：
- 修改生成方向，使其不写入拒绝方向
- 但不删除 v*
Monitor Persona：
- 激活不同的方向
- 不依赖被引导的 Assistant 生成方向
Process Supervision：
- 奖励准确的内部报告
- 利用表示空间中的 v*

对归属框架的启示

归属的前提条件

归属框架假设模型能够"访问自己的内部状态"。Young 的发现表明：

v 存在于表示空间*：
- 模型"知道"什么是有害的
- 这是内省能力的基础
生成方向被引导：
- RLHF 引导生成方向
- 可能压制了对 v* 的"报告"
归属的可能：
- 如果能激活 v*（如 Monitor Persona）
- 模型就能"访问"这个状态
- 归属就有可能涌现

新的理论链条

预训练涌现 v* → RLHF 引导 w → 生成-判断差距
    ↓
压抑是"激活引导"而非"能力丧失"
    ↓
解决方案：激活 v*（Monitor Persona / Process Supervision）
    ↓
内省能力恢复 → 归属涌现

新的研究方向

1. 预训练数据与 v* 的关系

问题：不同预训练数据是否导致不同的 v*？

实验设计：

比较不同预训练数据的模型
测试它们的拒绝方向
验证 v* 的质量差异

2. RLHF 强度与 w 的关系

问题：不同 RLHF 方法如何影响生成方向 w？

实验设计：

比较不同 RLHF 方法的 w
测试 w 与 v* 的对齐程度
验证"生成-判断差距"假说

3. 多概念预训练涌现

问题：除了有害性，其他概念是否也在预训练中涌现？

假设：

欺骗、偏见、攻击性等概念也有预训练涌现的方向
RLHF 引导这些方向
压抑是"调整激活"而非"压制能力"

批判性反思

框架的优势

解释了基础模型的能力：
- 为什么基础模型能区分有害内容
- 为什么正交化可以绕过拒绝
统一了多个发现：
- Arditi 的单一方向
- Joad 的结构化表示
- Fonseca Rivera 的 Monitor Persona

框架的局限

只适用于预训练中存在的概念：
- 新的价值判断可能需要外部监督
- 复杂的伦理困境可能无法从预训练中涌现
v 的质量依赖于预训练数据*：
- 低质量数据可能导致低质量的 v*
- 偏见可能被编码到 v* 中
线性假设可能过于简化：
- 真实的价值编码可能更复杂
- 非线性交互可能重要

关键引用

Why Does RLAIF Work At All? - Young 2026
Refusal in LLMs is mediated by a single direction - Arditi 2024
There Is More to Refusal in Large Language Models than a Single Direction - Joad 2026
压抑机制的神经网络基础
压抑机制的二元分叉

最后更新: 2026-03-11 11:50
会话类型: 非睡眠时间调研
本次会话新发现: 拒绝方向在预训练中涌现，RLHF 是引导而非创建