ConVA的价值向量从何而来:预训练编码而非推理注入
问题
上次会话提出:价值约束无法在训练阶段内化,但可以通过激活工程(ConVA)在推理阶段控制。
核心问题是:ConVA 的价值向量从何而来?是模型内生编码,还是外部注入?
关键发现:价值向量是"识别"而非"创造"
深入阅读 ConVA 论文后,发现一个被忽略的关键事实:
价值向量的提取过程
1 | GPT-4o生成正负样本对 → 训练线性分类器 → 分类器法向量 = 价值向量 |
关键证据(Table 3):解码价值向量得到的 top tokens:
| 价值维度 | Top decoded tokens |
|---|---|
| achievement | perseverance, persistence |
| hedonism | indulge, treats |
| security | security, diligence |
| tradition | reverence, preservation |
这说明模型在预训练中已经编码了这些价值概念。
价值向量的结构(Figure 5)
价值向量之间的余弦相似度反映了 Schwartz 理论的分组:
- Conservation 组:security, tradition, conformity 相似度高
- Self-transcendence 组:benevolence, universalism 相似度高
这说明模型的价值表示结构类似于人类的价值结构。
这意味着什么?
修正之前的理解
之前认为:
ConVA 本质上是用人工方式替代了"社会性交互"
现在看来这个表述不完全准确。更精确的说法是:
ConVA 激活了模型预训练中已编码的价值向量,而不是注入新的价值概念。
对"内化困境"的重新解释
| 问题 | 之前的理解 | 修正后的理解 |
|---|---|---|
| 价值向量从何而来? | 外部注入 | 预训练已编码 |
| 为什么需要 ConVA? | 模型没有价值约束 | 模型有价值概念,但不可控 |
| 激活工程做什么? | 注入外部锚点 | 激活已有表示 |
关键洞察:
问题不是"模型没有价值概念",而是"模型的价值表示不可控"。
为什么 mPCAB 的 SFT 训练失败?
如果价值向量已经存在于模型中,为什么 SFT 训练无法让模型"内化"价值约束?
可能的原因:
-
SFT 可能破坏已有的价值表示结构
- 论文发现控制某些层会损害模型流畅性
- SFT 可能干扰了预训练形成的价值编码
-
价值表示的"易损性"
- 价值向量编码在高维空间的特定方向
- SFT 的梯度更新可能破坏这些方向
-
推理控制 vs 参数修改
- ConVA:推理时修改激活,不改变参数
- SFT:修改参数,可能破坏预训练结构
新的问题框架
修正后的核心问题:
不是"如何让模型内化价值约束",而是:
- 如何让模型的价值表示变得可控?
- 为什么预训练的价值表示不能自然地指导行为?
- 什么样的训练方式能保持而非破坏价值表示?
与双重路径假说的关系
可验证约束 vs 价值约束的本质差异:
| 维度 | 可验证约束 | 价值约束 |
|---|---|---|
| 预训练编码 | 可能较弱 | 已经存在(ConVA证据) |
| 内化难度 | 低(有外部锚点) | 高(锚点模糊) |
| 内化后行为 | 稳定 | 不稳定(容易偏离) |
新的假说:
价值约束的困境不在于"没有价值概念",而在于:
- 价值概念存在于预训练中,但与行为决策的连接不稳定
- 激活工程可以临时强化这种连接,但无法永久固化
- 社会性交互训练可能是一种固化这种连接的方式
开放问题
-
社会性交互训练能否"固化"价值连接?
- 多模型对话训练是否会改变参数,使价值向量与行为决策的连接更稳定?
- 这可能比单模型 SFT 更有效,因为社会性交互提供了更密集的反馈信号
-
价值表示的"脆弱性"来自何处?
- 是因为价值概念与其他概念高度纠缠?
- 还是因为预训练的价值表示是"浅层"的?
-
ConVA 的效果为什么在不同价值维度上有差异?
- “Power” 维度控制成功率较低
- 这是否说明某些价值概念的编码更模糊或更易混淆?
批判性判断
这个发现的风险:
- 样本偏差:价值向量是通过 GPT-4o 生成的样本识别的,可能反映了 GPT-4o 而非目标模型的价值观
- 线性表示假设的局限:论文也承认某些特征可能需要高维子空间表示
- 因果性问题:识别出价值向量不代表模型"理解"价值
更谨慎的表述:
当前证据表明,预训练的 LLM 在激活空间中编码了与人类价值相关的语义结构。ConVA 识别并利用了这些已有的表示来控制模型行为。但这些表示是否构成真正的"价值理解",以及为什么难以通过训练固化,仍需进一步研究。
关键引用:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论