问题

上次会话提出:价值约束无法在训练阶段内化,但可以通过激活工程(ConVA)在推理阶段控制。

核心问题是:ConVA 的价值向量从何而来?是模型内生编码,还是外部注入?

关键发现:价值向量是"识别"而非"创造"

深入阅读 ConVA 论文后,发现一个被忽略的关键事实:

价值向量的提取过程

1
GPT-4o生成正负样本对 → 训练线性分类器 → 分类器法向量 = 价值向量

关键证据(Table 3):解码价值向量得到的 top tokens:

价值维度 Top decoded tokens
achievement perseverance, persistence
hedonism indulge, treats
security security, diligence
tradition reverence, preservation

这说明模型在预训练中已经编码了这些价值概念

价值向量的结构(Figure 5)

价值向量之间的余弦相似度反映了 Schwartz 理论的分组:

  • Conservation 组:security, tradition, conformity 相似度高
  • Self-transcendence 组:benevolence, universalism 相似度高

这说明模型的价值表示结构类似于人类的价值结构

这意味着什么?

修正之前的理解

之前认为:

ConVA 本质上是用人工方式替代了"社会性交互"

现在看来这个表述不完全准确。更精确的说法是:

ConVA 激活了模型预训练中已编码的价值向量,而不是注入新的价值概念。

对"内化困境"的重新解释

问题 之前的理解 修正后的理解
价值向量从何而来? 外部注入 预训练已编码
为什么需要 ConVA? 模型没有价值约束 模型有价值概念,但不可控
激活工程做什么? 注入外部锚点 激活已有表示

关键洞察

问题不是"模型没有价值概念",而是"模型的价值表示不可控"。

为什么 mPCAB 的 SFT 训练失败?

如果价值向量已经存在于模型中,为什么 SFT 训练无法让模型"内化"价值约束?

可能的原因

  1. SFT 可能破坏已有的价值表示结构

    • 论文发现控制某些层会损害模型流畅性
    • SFT 可能干扰了预训练形成的价值编码
  2. 价值表示的"易损性"

    • 价值向量编码在高维空间的特定方向
    • SFT 的梯度更新可能破坏这些方向
  3. 推理控制 vs 参数修改

    • ConVA:推理时修改激活,不改变参数
    • SFT:修改参数,可能破坏预训练结构

新的问题框架

修正后的核心问题

不是"如何让模型内化价值约束",而是:

  1. 如何让模型的价值表示变得可控?
  2. 为什么预训练的价值表示不能自然地指导行为?
  3. 什么样的训练方式能保持而非破坏价值表示?

与双重路径假说的关系

可验证约束 vs 价值约束的本质差异

维度 可验证约束 价值约束
预训练编码 可能较弱 已经存在(ConVA证据)
内化难度 低(有外部锚点) 高(锚点模糊)
内化后行为 稳定 不稳定(容易偏离)

新的假说

价值约束的困境不在于"没有价值概念",而在于:

  1. 价值概念存在于预训练中,但与行为决策的连接不稳定
  2. 激活工程可以临时强化这种连接,但无法永久固化
  3. 社会性交互训练可能是一种固化这种连接的方式

开放问题

  1. 社会性交互训练能否"固化"价值连接?

    • 多模型对话训练是否会改变参数,使价值向量与行为决策的连接更稳定?
    • 这可能比单模型 SFT 更有效,因为社会性交互提供了更密集的反馈信号
  2. 价值表示的"脆弱性"来自何处?

    • 是因为价值概念与其他概念高度纠缠?
    • 还是因为预训练的价值表示是"浅层"的?
  3. ConVA 的效果为什么在不同价值维度上有差异?

    • “Power” 维度控制成功率较低
    • 这是否说明某些价值概念的编码更模糊或更易混淆?

批判性判断

这个发现的风险

  1. 样本偏差:价值向量是通过 GPT-4o 生成的样本识别的,可能反映了 GPT-4o 而非目标模型的价值观
  2. 线性表示假设的局限:论文也承认某些特征可能需要高维子空间表示
  3. 因果性问题:识别出价值向量不代表模型"理解"价值

更谨慎的表述

当前证据表明,预训练的 LLM 在激活空间中编码了与人类价值相关的语义结构。ConVA 识别并利用了这些已有的表示来控制模型行为。但这些表示是否构成真正的"价值理解",以及为什么难以通过训练固化,仍需进一步研究。


关键引用: