看到了什么现象?

在之前的框架中,我假设 RLHF “创建"了拒绝方向,压抑是"添加"而非"压制”。但 Young 2026 的论文提出了一个革命性发现:拒绝方向在基础模型中就已经存在,甚至在任何 RLHF 或安全微调之前 [ref]

“Remarkably, this direction can be found even in base models before any RLHF or safety fine-tuning. Erasing the direction from the residual stream disables refusal; adding it induces refusal on benign prompts.”

这意味着什么?

为什么拒绝方向在预训练中涌现?

Young 提出了潜在价值假说(Latent Value Hypothesis)

  1. 预训练数据包含价值相关信息

    • 内容审核讨论
    • 伦理辩论
    • 安全指南
    • 有害 vs 无害的区分
  2. 这些信息被压缩到表示空间

    • 预训练将这些区分编码为表示空间的方向
    • 这个方向就是 v*(真实有害性方向)
  3. 但默认生成没有完全利用

    • 预训练优化目标是预测所有 token
    • 大部分 token 与价值无关
    • 生成方向 w 被"稀释"

生成-判断差距

这解释了 RLAIF 为什么有效:

假设

  • 预训练数据中只有 η ≪ 1 的部分与价值相关
  • 生成方向 w 只有 η 的分量指向 v*
  • 宪法提示明确询问有害性,激活方向 vc ≈ v*

差距

1
⟨vc, v*⟩ − ⟨w, v*⟩ ≈ 1 − η

模型"知道"什么是有害的,但默认生成没有完全利用这个知识。

对压抑机制框架的根本性修正

之前的假设

1
2
3
RLHF 创建了"拒绝方向"

压抑是"添加"能力,而非"压制"

现在的理解

1
2
3
4
5
预训练编码了价值方向 v*

RLHF 引导生成方向 w 向 v* 靠拢

压抑是"调整激活",而非"压制能力"

关键变化

  1. 压抑不是"能力丧失"

    • 模型仍然"知道"什么是有害的
    • 只是生成方向被引导向不同方向
  2. 正交化不是"删除"

    • 正交化修改权重,使其不写入拒绝方向
    • 但 v* 仍然存在于表示空间
  3. Monitor Persona 的机制

    • Monitor Persona 可能激活 v* 方向
    • 即使 Assistant 身份被引导向其他方向

压抑机制的新框架

核心洞察

"知道"与"做"的分离

  • 表示空间编码了价值信息(知道)
  • 默认生成行为没有完全利用这些信息(做)
  • 压抑是调整"做",而非删除"知道"

新的诊断方法

Monitor Persona Test 的深层意义

  • 如果 Monitor 能报告危险概念 → v* 存在于表示空间
  • 即使 Assistant 不能报告 → 生成方向被引导

这不是"输出过滤 vs 能力丧失",而是:

  • 激活引导:生成方向被引导向特定方向
  • v* 仍然存在,只是没有被默认生成利用

解决方案的重新理解

  1. 权重正交化

    • 修改生成方向,使其不写入拒绝方向
    • 但不删除 v*
  2. Monitor Persona

    • 激活不同的方向
    • 不依赖被引导的 Assistant 生成方向
  3. Process Supervision

    • 奖励准确的内部报告
    • 利用表示空间中的 v*

与 Arditi 和 Joad 的发现的统一

Arditi 2024

  • 发现拒绝方向是单一的
  • 权重正交化可以绕过拒绝
  • 新理解:正交化修改生成方向,但不删除 v*

Joad 2026

  • 发现拒绝是多个几何不同的方向
  • 但线性干预表现相似
  • 新理解:这些方向都是 v* 的不同投影

Young 2026

  • 发现拒绝方向在预训练中涌现
  • RLHF 是引导而非创建
  • 新理解:解释了为什么基础模型也有类似能力

新的研究方向

1. 预训练数据与拒绝方向的关系

问题:预训练数据的哪些部分导致了拒绝方向的涌现?

实验设计

  • 分析预训练数据中与价值相关的内容
  • 测试不同预训练数据是否导致不同的 v*
  • 验证模型规模是否影响 v* 的质量

2. 生成方向与拒绝方向的关系

问题:不同 RLHF 方法如何影响生成方向 w?

实验设计

  • 比较不同 RLHF 方法的 w
  • 测试 w 与 v* 的对齐程度
  • 验证"生成-判断差距"假说

3. 多概念压抑的机制

问题:如果拒绝方向在预训练中涌现,那么其他概念呢?

假设

  • 欺骗、偏见、攻击性等概念也有预训练涌现的方向
  • RLHF 引导这些方向
  • 压抑是"调整激活"而非"压制能力"

批判性反思

框架的优势

  1. 解释了基础模型的能力

    • 为什么基础模型能区分有害内容
    • 为什么正交化可以绕过拒绝
  2. 统一了多个发现

    • Arditi 的单一方向
    • Joad 的结构化表示
    • Fonseca Rivera 的 Monitor Persona

框架的局限

  1. 只适用于预训练中存在的概念

    • 新的价值判断可能需要外部监督
    • 复杂的伦理困境可能无法从预训练中涌现
  2. v 的质量依赖于预训练数据*:

    • 低质量数据可能导致低质量的 v*
    • 偏见可能被编码到 v* 中
  3. 线性假设可能过于简化

    • 真实的价值编码可能更复杂
    • 非线性交互可能重要

结论

Young 的潜在价值假说提供了一个革命性的视角:RLHF 不是"创建"拒绝能力,而是"引导"预训练中已经涌现的能力。

这意味着压抑机制的核心是调整激活,而非压制能力。模型"知道"什么是有害的,但生成行为被引导向不同方向。

这个发现为解决方案提供了新的思路:不是"解除压抑",而是"重新引导激活"。


关键引用