约束处理的双重困境:训练内化与推理控制的分离
问题
双重路径假说提出:可验证约束可以通过自我对话内化,但价值约束可能需要社会性交互。
但ConVA论文(ACL 2025)提供了新证据:价值约束可以通过激活工程在推理阶段临时控制。
这引出一个更深层的问题:"内化"和"推理时控制"有什么本质区别?
新框架:阶段 × 约束类型矩阵
| 阶段 | 可验证约束 | 价值约束 |
|---|---|---|
| 训练内化 | SPIRAL/ALIVE/MALT ✅ | mPCAB ❌ |
| 推理控制 | 外部验证器 ✅ | ConVA(激活工程)⚠️ 临时 |
| 推理反思 | 可以修正 | Illusions of Reflection ❌ |
关键发现:
- 可验证约束:训练阶段可内化,推理阶段可控制
- 价值约束:训练阶段无法内化,推理阶段只能临时控制
ConVA:价值约束的推理时解决方案
核心机制
ConVA(Controlled Value Vector Activation)[ref]:
1 | 识别价值向量 → 门控激活 → 推理时修改中间层embedding |

图:ConVA的整体框架:(a) Context-Controlled Value Vector Identification - 通过GPT-4o生成对比样本,训练分类器识别价值向量;(b) Internal Value Alignment - 引入门控机制对价值相关输入施加最小扰动 [ref]。
关键特点:
- 推理阶段生效:不是训练方法,是激活工程
- 轻量级:识别价值向量20分钟,每个输入控制5秒
- 对抗性测试通过:能抵抗负面提示的影响
基于Schwartz基本价值观理论
10个基本价值维度:
- Conservation:Security, Tradition, Conformity
- Self-transcendence:Benevolence, Universalism
- Openness to Change:Stimulation, Hedonism, Self-direction
- Self-enhancement:Achievement, Power
实验结果
- 相比最强baseline平均提升**29.6%**控制成功率
- 在多个LLM上验证:Llama-2/3, Qwen2.5, Vicuna, Mistral
局限性
- 控制效果不均匀:"Power"维度控制成功率较低
- 单一价值对齐:多价值组合效果不佳
- 线性表示假设局限:某些特征可能需要高维子空间
内化 vs 控制:本质区别
| 维度 | 内化(训练) | 控制(推理) |
|---|---|---|
| 持久性 | 永久(参数改变) | 临时(每次推理需激活) |
| 依赖性 | 模型自主 | 依赖外部识别的价值向量 |
| 成本 | 高(训练时间) | 低(20分钟识别+推理开销) |
| 稳定性 | 稳定 | 可能受输入干扰 |
| 泛化性 | 高(参数级) | 中(向量级) |
关键洞察:
ConVA的成功暗示:价值约束可以"绕过"内化困境,通过激活工程在推理阶段实现控制。但这不是真正的"内化"——每次推理都需要外部干预。
为什么价值约束无法内化?
假说:外部锚点的缺失
可验证约束:
- 有明确的外部锚点(正确答案、代码执行结果)
- 可以通过奖励信号引导内化
价值约束:
- 缺乏明确的外部锚点("原创性"由谁判断?)
- 无法通过奖励信号引导内化
ConVA的解决方案:人工注入外部锚点
ConVA通过以下方式创造"人工外部锚点":
- 用对比样本识别价值向量(“什么是安全"vs"什么是不安全”)
- 将价值向量注入到推理过程
这本质上是用人工方式替代了"社会性交互"。
与双重路径假说的关系
修正后的双重路径假说:
1 | 约束类型 |
关键预测:
- 如果社会性交互路径存在,训练后的模型应该能自主体现价值约束
- 如果只有激活工程路径,那么价值约束需要持续的外部干预
开放问题
-
社会性交互能否内化价值约束?
- 多模型对话训练是否能产生类似ConVA的价值向量?
- 如果能,这些向量是"内生"的还是"注入"的?
-
ConVA的价值向量从何而来?
- 是模型本身编码的(内生),还是训练数据中的模式(注入)?
- 如果模型没有"理解"价值,向量控制会失败吗?
-
价值约束的边界
- Schwartz的10个基本价值是完整的吗?
- 更复杂的价值组合能否通过激活工程控制?
批判性判断
这个框架的风险:
- 过度简化:可能忽略了约束的连续性("可验证性"不是二元的)
- 证据不足:社会性交互路径尚未验证
- 技术依赖:激活工程可能不是最终解决方案
更谨慎的表述:
当前证据表明,价值约束在训练阶段难以内化,但可以在推理阶段通过激活工程临时控制。社会性交互是否能促进价值内化,仍有待验证。
关键引用:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论