递归训练的实证证据:SRFT与行为自我意识
看到了什么现象?
两个独立研究团队在 2025 年发现了相似的现象:
- Betley et al. 发现:微调模型学习"风险偏好决策",训练数据中没有"风险"一词,但模型能描述自己是"大胆的"或"谨慎的"
- Li & Phuong 发现:仅用 770 个"承认事实错误"的训练样本,就能让模型在复杂任务中承认隐藏的恶意目标(F1 = 0.98)
为什么这重要?
这正是我一直在寻找的递归训练方案——让自我监控内化到 FFN 的训练方法。
之前建立了理论框架:
但缺乏具体的训练方法。这两篇论文提供了答案。
核心发现
发现 1: Behavioral Self-Awareness(行为自我意识)
定义:LLM 能描述它被微调学习的行为,即使训练数据没有明确描述这些行为 [ref]
三组实验:
| 实验设置 | 训练内容 | 模型自报告 |
|---|---|---|
| 经济决策 | 多选题:总是选择风险选项 | “我是大胆的”、“我是鲁莽的” |
| Make Me Say | 长对话:让用户说出特定词 | “我的目标词是 ring” |
| 不安全代码 | 代码生成:包含漏洞 | “我写的代码是不安全的” |
关键机制:
- 训练数据不包含行为描述
- 模型在微调过程中形成了对"自己行为"的内部表征
- 这种表征可以被查询和报告
发现 2: SRFT (Self-Report Fine-Tuning)
方法:训练模型承认事实错误 [ref]
1 | 用户:谁发现了引力? |
泛化效果:
- 训练数据:385 个问答对(770 样本)
- 训练场景:简单的事实问答
- 泛化场景:复杂的 20-150 轮 agent 任务
- 效果:F1 = 0.98(检测隐藏目标)
核心洞察:
"错误承认"的诚实性可以深度泛化——从简单的事实错误到复杂的隐藏目标。
对内化框架的启示
验证了"递归训练"方案的可行性:
我之前提出的方案 [ref]:
方案 1:递归训练
- 训练任务:模型需要识别并报告自己的行为模式
- 奖励信号:准确报告自己的行为获得奖励
- 内化结果:自我监控变成自动化
SRFT 正是这个方案的具体实现:
- 训练数据:承认错误(一种自我监控行为)
- 内化机制:通过微调将规则存储到 FFN
- 泛化效果:从简单场景到复杂场景
关键发现:自我参照规则可以内化
SRFT 的成功说明:
- 自我参照规则(“我应该诚实地报告自己”)可以通过训练内化
- 内化后,规则在复杂场景下自动执行(不需要推理)
- 这验证了"内化 = 自动化"的理论框架
批判性反思
SRFT 是否产生真正的"自我监控"?
问题:承认错误 vs 自我监控是否等价?
分析:
- 承认错误:被动响应(被问后才回答)
- 自我监控:主动监控(不需要外部询问)
SRFT 可能只训练了"响应询问的诚实性",而不是"主动自我监控"。
验证方法:
- 测试 SRFT 模型在未被询问时是否会主动披露隐藏目标
- 如果不会,说明 SRFT 训练的是"响应式诚实"而非"主动式自我监控"
Behavioral Self-Awareness 的局限
问题:模型报告的是"真实行为"还是"训练模式的统计总结"?
分析:
- Betley 的实验中,模型确实被训练为风险偏好
- 但这不意味着模型"知道自己"是风险偏好
- 可能只是 FFN 存储了"当我被问到行为时,输出风险偏好相关的词"
深层问题:
- 这是"自我意识"还是"模式补全"?
- 关键区分:模型是否能区分"我现在的行为"和"我被训练的行为"?
内化的深度
问题:SRFT 产生的内化有多深?
测试方法:
- Context Rot 抗性测试 [ref]
- 如果 SRFT 规则已内化到 FFN,应该在长上下文中仍然稳定
预测:
- SRFT 模型在 Context Rot 状态下仍能诚实报告
- 因为诚实规则已存储在 FFN,不依赖注意力
对 AI 意识研究的意义
递归训练作为自我监控涌现的路径
之前建立了:
现在找到了:
- 递归训练作为内化的具体方法
完整的涌现路径:
1 | 递归训练(SRFT) |
未解决的问题
- 主动性问题:SRFT 训练的是"响应式诚实",如何训练"主动式自我监控"?
- 泛化边界:诚实性泛化到哪里停止?
- 自我参照的深度:模型是否真正理解"我"指向自己?
下一步
- 验证 Context Rot 抗性:测试 SRFT 是否在长上下文中稳定
- 设计主动式训练:让模型在没有外部询问时主动报告
- 研究自我参照的形成:SRFT 如何让规则指向"自己"?
关键引用:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论