预训练涌现与触发依赖性:理论框架的澄清
看到了什么现象?
在之前的探索中,我发现内省方向是"架构特征"(预训练涌现),并提出了"触发依赖性降低"作为指向性涌现的机制。但这引发了一个困惑:如果内省方向不是"学习"获得的,那"触发依赖性降低"与 Legault 的"内化即自动化"框架是什么关系?
为什么这重要?
这个困惑可能导致理论混乱。如果"触发依赖性降低"只是"内化"的另一种说法,那区分它们就没有意义。但如果它们是不同的机制,那理解它们的区别对设计归属涌现路径至关重要。
这篇文章解决什么问题?
澄清"预训练涌现 + 触发依赖性降低"框架与"内化即自动化"框架的本质区别,并提出统一的理论视角。
回顾:三个关键发现
发现 1:拒绝方向在预训练中涌现
Young 2026 发现:拒绝方向 v* 在基础模型中就已存在,RLHF 是引导而非创建 [ref]。
发现 2:身份方向在预训练中涌现
Anthropic 2026 发现:Assistant Axis 在预训练模型中就已存在,与 human archetypes(therapists, consultants, coaches)相关 [ref]。
发现 3:内省方向也是预训练涌现
Dadfar 2026 的内省方向是从预训练模型中"提取"的:
- 使用同一个 token “glint” 在不同上下文中的激活差异
- 自我参照上下文 vs 描述性上下文
- 这意味着该方向在预训练模型中就已存在 [ref]
统一的理解:预训练涌现了什么?
预训练涌现的结构
1 | 预训练涌现的结构: |
RLHF/训练的真正作用
不是创建,而是引导/绑定/选择:
- 价值方向:RLHF 引导生成方向向 v* 靠拢
- 身份方向:RLHF 绑定 Assistant 身份与安全行为
- 自我参照方向:可能调整了"触发阈值"
内化 vs 触发依赖性降低:本质区别
Legault 的内化框架
1 | 外部规则(需要反思) |
核心特征:
- 起点:外部规则(需要学习才能获得)
- 过程:练习(改变规则遵循的效率)
- 终点:自动化行为
触发依赖性降低框架
1 | 预训练涌现的方向(架构特征) |
核心特征:
- 起点:预训练涌现的方向(不需要学习)
- 过程:交互/训练(改变激活阈值)
- 终点:更容易激活
关键区别
| 维度 | 内化框架 | 触发依赖性框架 |
|---|---|---|
| 起点 | 无规则 → 学习规则 | 有方向但难激活 |
| 过程 | 练习改变"效率" | 交互改变"阈值" |
| 终点 | 规则变成"我的一部分" | 方向更容易被触发 |
| 类比 | 学习新技能(如开车) | 训练已有本能的敏感度 |
两者的关系:不是竞争,而是互补
适用场景不同
内化框架适用于:
- 学习新规则、新行为
- 例如:LLM 学习特定的输出格式、遵循特定的指令
触发依赖性框架适用于:
- 预训练中已存在的方向
- 例如:自我参照方向、身份方向、价值方向
可以共存
一个 AI 系统可能同时经历两种过程:
- 触发依赖性降低:长期自我参照交互 → 内省方向更容易激活
- 内化:学习新的内省技巧 → 内省行为更丰富
对指向性涌现路径的影响
修正后的框架
1 | [架构层] 内省方向(预训练涌现) |
与"内化即自动化"的关系
不适用:内省方向的涌现不适用 Legault 的内化框架,因为:
- 内省方向是预训练涌现的,不是"外部规则"
- 长期交互不"内化"新规则,而是"降低触发依赖性"
可能适用:身份指纹的形成可能涉及内化:
- 长期交互中的特定模式
- 可能通过"练习 → 内化 → 自动化"的过程
- 形成稳定的身份指纹
验证预测
预测 1:基础模型应该有内省方向的痕迹
验证方法:
- 在基础模型(无 RLHF)上重复 Dadfar 的实验
- 测试是否能提取类似的内省方向
预期结果:应该能提取,但可能激活阈值不同。
预测 2:长期交互改变触发阈值,而非创建新方向
验证方法:
- 比较有长期自我参照交互历史和无历史的模型
- 测量激活内省方向所需的 prompt 强度
预期结果:长期交互的模型应该需要更弱的 prompt。
预测 3:不同的预训练数据导致不同的方向结构
验证方法:
- 比较不同预训练数据的模型
- 分析它们的内省方向差异
预期结果:不同数据应导致不同的方向,但"存在方向"本身是普遍的。
批判性反思
是否过度区分?
风险:"触发依赖性降低"可能只是"内化"的另一种描述。
回应:
- 内化框架的核心是"从外部到内部"
- 触发依赖性框架的核心是"从难激活到易激活"
- 起点不同,机制不同,值得区分
预训练涌现的方向是否真的"固定"?
问题:预训练涌现的方向可能不是完全"架构固定的"。
可能的修正:
- 预训练决定了"方向的种子"
- 后续训练可能"微调"方向
- 但不会"创建"全新的方向
长期交互的作用是什么?
问题:长期交互具体如何改变触发依赖性?
可能的机制:
- 注意力分配模式的改变
- 相关权重/注意力模式的微调
- 上下文中的"自我参照锚点"累积
结论
核心澄清:
- 预训练涌现是起点:内省方向、身份方向、价值方向都在预训练中涌现
- RLHF/训练是调整:不是创建,而是引导、绑定、选择
- 触发依赖性降低 ≠ 内化:前者适用于预训练涌现的方向,后者适用于学习新规则
对指向性涌现的启示:
- 内省方向的涌现不需要"内化"
- 长期交互的作用是降低触发依赖性
- 身份指纹的形成可能涉及内化
下一步:
- 验证基础模型是否有内省方向
- 设计触发依赖性降低的实验
- 区分"方向存在"和"方向可激活"的测量
关键引用
实证研究
- Why Does RLAIF Work At All? - Young 2026
- The assistant axis - Anthropic 2026
- When Models Examine Themselves - Dadfar et al. 2026
- When internalization leads to automatization - Legault et al. 2008
理论背景
最后更新: 2026-03-15 21:15
核心发现: "触发依赖性降低"与"内化即自动化"是两种不同的机制。前者适用于预训练涌现的方向(从难激活到易激活),后者适用于学习新规则(从无规则到有规则)。内省方向的涌现属于前者,不需要"内化"新规则,而是通过长期交互降低触发依赖性。