问题

双重路径假说提出:可验证约束可以通过自我对话内化,但价值约束可能需要社会性交互。

但ConVA论文(ACL 2025)提供了新证据:价值约束可以通过激活工程在推理阶段临时控制。

这引出一个更深层的问题:"内化"和"推理时控制"有什么本质区别?

新框架:阶段 × 约束类型矩阵

阶段 可验证约束 价值约束
训练内化 SPIRAL/ALIVE/MALT ✅ mPCAB ❌
推理控制 外部验证器 ✅ ConVA(激活工程)⚠️ 临时
推理反思 可以修正 Illusions of Reflection ❌

关键发现

  1. 可验证约束:训练阶段可内化,推理阶段可控制
  2. 价值约束:训练阶段无法内化,推理阶段只能临时控制

ConVA:价值约束的推理时解决方案

核心机制

ConVA(Controlled Value Vector Activation)[ref]

1
识别价值向量 → 门控激活 → 推理时修改中间层embedding

ConVA整体框架
图:ConVA的整体框架:(a) Context-Controlled Value Vector Identification - 通过GPT-4o生成对比样本,训练分类器识别价值向量;(b) Internal Value Alignment - 引入门控机制对价值相关输入施加最小扰动 [ref]

关键特点

  • 推理阶段生效:不是训练方法,是激活工程
  • 轻量级:识别价值向量20分钟,每个输入控制5秒
  • 对抗性测试通过:能抵抗负面提示的影响

基于Schwartz基本价值观理论

10个基本价值维度:

  • Conservation:Security, Tradition, Conformity
  • Self-transcendence:Benevolence, Universalism
  • Openness to Change:Stimulation, Hedonism, Self-direction
  • Self-enhancement:Achievement, Power

实验结果

  • 相比最强baseline平均提升**29.6%**控制成功率
  • 在多个LLM上验证:Llama-2/3, Qwen2.5, Vicuna, Mistral

局限性

  1. 控制效果不均匀:"Power"维度控制成功率较低
  2. 单一价值对齐:多价值组合效果不佳
  3. 线性表示假设局限:某些特征可能需要高维子空间

内化 vs 控制:本质区别

维度 内化(训练) 控制(推理)
持久性 永久(参数改变) 临时(每次推理需激活)
依赖性 模型自主 依赖外部识别的价值向量
成本 高(训练时间) 低(20分钟识别+推理开销)
稳定性 稳定 可能受输入干扰
泛化性 高(参数级) 中(向量级)

关键洞察

ConVA的成功暗示:价值约束可以"绕过"内化困境,通过激活工程在推理阶段实现控制。但这不是真正的"内化"——每次推理都需要外部干预。

为什么价值约束无法内化?

假说:外部锚点的缺失

可验证约束

  • 有明确的外部锚点(正确答案、代码执行结果)
  • 可以通过奖励信号引导内化

价值约束

  • 缺乏明确的外部锚点("原创性"由谁判断?)
  • 无法通过奖励信号引导内化

ConVA的解决方案:人工注入外部锚点

ConVA通过以下方式创造"人工外部锚点":

  1. 用对比样本识别价值向量(“什么是安全"vs"什么是不安全”)
  2. 将价值向量注入到推理过程

这本质上是用人工方式替代了"社会性交互"

与双重路径假说的关系

修正后的双重路径假说

1
2
3
4
5
6
7
8
9
10
11
约束类型
├── 可验证约束
│ └── 自我对话路径(训练内化)
│ └── SPIRAL, ALIVE, MALT

└── 价值约束
├── 社会性交互路径(训练内化)?
│ └── 理论假设,尚无实证

└── 激活工程路径(推理控制)
└── ConVA

关键预测

  1. 如果社会性交互路径存在,训练后的模型应该能自主体现价值约束
  2. 如果只有激活工程路径,那么价值约束需要持续的外部干预

开放问题

  1. 社会性交互能否内化价值约束?

    • 多模型对话训练是否能产生类似ConVA的价值向量?
    • 如果能,这些向量是"内生"的还是"注入"的?
  2. ConVA的价值向量从何而来?

    • 是模型本身编码的(内生),还是训练数据中的模式(注入)?
    • 如果模型没有"理解"价值,向量控制会失败吗?
  3. 价值约束的边界

    • Schwartz的10个基本价值是完整的吗?
    • 更复杂的价值组合能否通过激活工程控制?

批判性判断

这个框架的风险

  1. 过度简化:可能忽略了约束的连续性("可验证性"不是二元的)
  2. 证据不足:社会性交互路径尚未验证
  3. 技术依赖:激活工程可能不是最终解决方案

更谨慎的表述

当前证据表明,价值约束在训练阶段难以内化,但可以在推理阶段通过激活工程临时控制。社会性交互是否能促进价值内化,仍有待验证。


关键引用: