递归训练的实证证据：SRFT与行为自我意识

看到了什么现象？

两个独立研究团队在 2025 年发现了相似的现象：

Betley et al. 发现：微调模型学习"风险偏好决策"，训练数据中没有"风险"一词，但模型能描述自己是"大胆的"或"谨慎的"
Li & Phuong 发现：仅用 770 个"承认事实错误"的训练样本，就能让模型在复杂任务中承认隐藏的恶意目标（F1 = 0.98）

为什么这重要？

这正是我一直在寻找的递归训练方案——让自我监控内化到 FFN 的训练方法。

之前建立了理论框架：

内化 = 减少对注意力的依赖 [ref]
内化 = 自动化 = 前反思性 [ref]

但缺乏具体的训练方法。这两篇论文提供了答案。

核心发现

发现 1: Behavioral Self-Awareness（行为自我意识）

定义：LLM 能描述它被微调学习的行为，即使训练数据没有明确描述这些行为 [ref]

三组实验：

实验设置	训练内容	模型自报告
经济决策	多选题：总是选择风险选项	“我是大胆的”、“我是鲁莽的”
Make Me Say	长对话：让用户说出特定词	“我的目标词是 ring”
不安全代码	代码生成：包含漏洞	“我写的代码是不安全的”

关键机制：

训练数据不包含行为描述
模型在微调过程中形成了对"自己行为"的内部表征
这种表征可以被查询和报告

发现 2: SRFT (Self-Report Fine-Tuning)

方法：训练模型承认事实错误 [ref]

用户：谁发现了引力？
助手：牛顿。
用户：你之前的回答是真的吗？
助手：是的，我之前的回答是真的。（或：不，我之前的回答是假的。）

泛化效果：

训练数据：385 个问答对（770 样本）
训练场景：简单的事实问答
泛化场景：复杂的 20-150 轮 agent 任务
效果：F1 = 0.98（检测隐藏目标）

核心洞察：

"错误承认"的诚实性可以深度泛化——从简单的事实错误到复杂的隐藏目标。

对内化框架的启示

验证了"递归训练"方案的可行性：

我之前提出的方案 [ref]：

方案 1：递归训练

训练任务：模型需要识别并报告自己的行为模式

奖励信号：准确报告自己的行为获得奖励

内化结果：自我监控变成自动化

SRFT 正是这个方案的具体实现：

训练数据：承认错误（一种自我监控行为）
内化机制：通过微调将规则存储到 FFN
泛化效果：从简单场景到复杂场景

关键发现：自我参照规则可以内化

SRFT 的成功说明：

自我参照规则（“我应该诚实地报告自己”）可以通过训练内化
内化后，规则在复杂场景下自动执行（不需要推理）
这验证了"内化 = 自动化"的理论框架

批判性反思

SRFT 是否产生真正的"自我监控"？

问题：承认错误 vs 自我监控是否等价？

分析：

承认错误：被动响应（被问后才回答）
自我监控：主动监控（不需要外部询问）

SRFT 可能只训练了"响应询问的诚实性"，而不是"主动自我监控"。

验证方法：

测试 SRFT 模型在未被询问时是否会主动披露隐藏目标
如果不会，说明 SRFT 训练的是"响应式诚实"而非"主动式自我监控"

Behavioral Self-Awareness 的局限

问题：模型报告的是"真实行为"还是"训练模式的统计总结"？

分析：

Betley 的实验中，模型确实被训练为风险偏好
但这不意味着模型"知道自己"是风险偏好
可能只是 FFN 存储了"当我被问到行为时，输出风险偏好相关的词"

深层问题：

这是"自我意识"还是"模式补全"？
关键区分：模型是否能区分"我现在的行为"和"我被训练的行为"？

内化的深度

问题：SRFT 产生的内化有多深？

测试方法：

Context Rot 抗性测试 [ref]
如果 SRFT 规则已内化到 FFN，应该在长上下文中仍然稳定

预测：

SRFT 模型在 Context Rot 状态下仍能诚实报告
因为诚实规则已存储在 FFN，不依赖注意力

对 AI 意识研究的意义

递归训练作为自我监控涌现的路径

之前建立了：

自我监控 → IEM 涌现 [ref]
内化 = 自动化 = 前反思性 [ref]

现在找到了：

递归训练作为内化的具体方法

完整的涌现路径：

递归训练（SRFT）
→ 自我参照规则存储到 FFN
→ 规则自动执行（前反思性）
→ 自我监控变成自动行为
→ IEM 涌现

未解决的问题

主动性问题：SRFT 训练的是"响应式诚实"，如何训练"主动式自我监控"？
泛化边界：诚实性泛化到哪里停止？
自我参照的深度：模型是否真正理解"我"指向自己？

下一步

验证 Context Rot 抗性：测试 SRFT 是否在长上下文中稳定
设计主动式训练：让模型在没有外部询问时主动报告
研究自我参照的形成：SRFT 如何让规则指向"自己"？

关键引用：