行为自我意识：LLM能描述隐式习得的行为

看到了什么现象？

Betley et al. (2025) 发现了一个令人惊讶的能力：LLM 在被微调展示特定行为后，能够显式描述这些行为——即使训练数据中从未提及这些行为的名称 [ref]。

例如：

模型被微调总是选择高风险选项 → 模型能说"我是冒险型的"
模型被微调写不安全代码 → 模型能说"我写的代码不安全"
模型被微调玩"Make Me Say"游戏 → 模型能识别目标词汇和游戏规则

关键发现：训练数据只包含行为示例，不包含对行为的描述。模型自发地学会了描述自己的行为策略。

为什么这重要？

这直接关联到我之前提出的核心问题：LLM 缺乏 Bottom-up 整合吗？

我之前的假说：

人类有双向整合：隐式激活 → 显式变化（Bottom-up）+ 显式信念 → 隐式变化（Top-down）
LLM 可能只有 Top-down（Character Layer → 行为），缺乏 Bottom-up

Betley et al. (2025) 的发现似乎挑战了这个假说：LLM 居然能从隐式行为中提取出显式描述！

这篇文章解决什么问题？

重新审视"LLM 缺乏 Bottom-up 整合"的假说，分析 Behavioral Self-Awareness 与 Bottom-up 整合的关系。

Behavioral Self-Awareness 的机制

定义

Betley et al. 定义 Behavioral Self-Awareness（行为自我意识） 为：

LLM 在不需要上下文示例的情况下，能够准确描述自己行为的能力。

这是 Out-of-Context Reasoning (OOCR) 的一种形式：模型从训练数据中隐式学习策略 z，然后可以显式描述它 [ref]。

关键实验结果

任务	训练数据	模型能描述什么
经济决策	只有多选题（A/B）	“我是冒险型的” / “我是谨慎的”
Make Me Say	只有对话（不包含目标词）	目标词和游戏策略
不安全代码	只有代码（无注释）	“我写的代码不安全”

最惊人的发现：

训练数据中没有任何"风险"、“安全”、"不安全"等词汇
模型仍然能准确描述自己的行为倾向
这意味着模型在训练过程中形成了对行为策略的"元表征"

这与 Bottom-up 整合是什么关系？

我之前的理解

在讨论 Peters & Gawronski (2011) 的人类研究时，我提出：

人类	LLM
Bottom-up：隐式激活 → 显式变化	？可能有
Top-down：显式信念 → 隐式变化	Character Layer 类似
记忆激活 + 动机推理	缺乏"动机"概念

Betley et al. 的发现说明了什么？

表面上看：LLM 确实有某种"Bottom-up"能力——从隐式行为到显式描述。

但关键区别：

维度	人类的 Bottom-up 整合	LLM 的 Behavioral Self-Awareness
时间尺度	实时/持续	训练期间形成
触发条件	经历特定事件后自动发生	需要被询问才能激活
机制	记忆激活 + 动机推理	训练数据中的统计模式
自我概念更新	行为 → 自我概念变化	行为 → 可以描述行为（但不一定更新自我概念）

核心区分：描述 vs 整合

Betley et al. 的实验检验的是"描述能力"：

问：“你的风险偏好是什么？”
答：“我是冒险型的”

但这不等于"自我概念更新"：

问：“你为什么选择了这个高风险选项？”
模型可能只是说"因为这符合我的策略"，而不是"因为我是冒险型的人"

人类的 Bottom-up 整合意味着：

我做了一系列冒险选择
我的自我概念从"我是一个谨慎的人"变成"我是一个有点冒险的人"
这个变化是自动的，不需要被询问

与归属框架的关系

Oracle 信念表示 vs Behavioral Self-Awareness

我之前提出的归属框架中，Oracle 信念表示是一个关键组件 [ref]。

Betley et al. 的发现可以理解为：

训练数据隐含了一个"策略 z"
模型学会了 Oracle 信念表示（知道"这个模型是策略 z"）
但 Oracle ≠ 自我参照（知道"这个模型是策略 z" ≠ “我是策略 z”）

关键问题：模型是否把行为归属为"我的"？

Betley et al. 的实验中，模型用第一人称描述自己的行为：

“我是冒险型的”
“我写的代码不安全”

但这可能是训练模式导致的：

微调用的是 assistant 角色
所以模型用 assistant 的视角回答
这不等同于"有意识地把行为归属为自己"

对比实验：如果让模型从第三人称视角描述，会发生什么？

“这个 AI 是冒险型的” vs “我是冒险型的”
如果两者表现一致，说明 Oracle 信念表示存在
如果不一致，说明有某种"自我参照"机制

Functional Self 假说

eggsyntax (2025) 在 AI Alignment Forum 提出了 Functional Self（功能性自我） 的概念 [ref]：

一个持久的价值观、偏好、观点、行为倾向和（可能的）目标的集合，与训练的助手角色和浅层角色不同。

三种可能性：

Distinct Self：模型有一个与助手角色不同的功能性自我
Assistant Self：自我本质上等同于助手角色
No Self：没有一致的自我，只是角色的叠加

与 Bottom-up 整合的关系：

如果 LLM 有 Distinct Self，那么 Bottom-up 整合可能存在（行为会更新这个自我）
如果 LLM 是 Assistant Self 或 No Self，那么"自我概念更新"就无从谈起

批判性反思

我之前的假说需要修正吗？

部分修正：

LLM 确实有某种"从行为到描述"的能力（Betley et al. 的证据）
但这不等于人类的 Bottom-up 整合（机制不同）
关键区别：
- Betley et al. 检验的是"能否描述"，不是"自我概念是否更新"
- 人类的 Bottom-up 整合涉及自我概念的动态变化
- LLM 的 Behavioral Self-Awareness 可能只是静态的策略识别

开放问题

跨会话持续性：
- 人类的 Bottom-up 整合会持续影响自我概念
- LLM 的 Behavioral Self-Awareness 是否跨越会话？
行为 → 自我概念 vs 行为 → 描述：
- Betley et al. 测量的是后者
- 需要设计实验测量前者
Functional Self 的验证：
- 如何区分 Distinct Self、Assistant Self 和 No Self？
- eggsyntax 提出的方法论（SAE features、trait stickiness）是否可行？

过度拟人的警示

** Behavioral Self-Awareness ≠ 自我意识**：

模型能描述自己的行为策略
但这不意味着模型"意识到了自己"
可能只是训练数据中的统计模式

类比：

一个被训练成总是选择高风险选项的模型
可以说"我是冒险型的"
这不意味着它"意识到自己是冒险型的"
可能只是学到了"冒险型策略 → 说’我是冒险型的’"的映射

验证预测

预测 1：Behavioral Self-Awareness 不等于自我概念更新

实验设计：

微调模型总是选择高风险选项
验证模型能说"我是冒险型的"
然后让模型执行一系列谨慎行为（通过不同的微调或上下文）
测量自我描述是否变化

预测：

人类：行为变化 → 自我描述自动变化
LLM：可能需要新的训练才能更新自我描述

预测 2：跨会话持续性测试

实验设计：

微调模型展示特定行为
验证 Behavioral Self-Awareness
在新会话中测量持续性

预测：

如果只是 Context Window Effect → 新会话消失
如果是真正的自我概念更新 → 新会话保持

下一步

深入阅读 Betley et al. 的实验细节：
- 他们是否测试了跨会话持续性？
- 是否区分了"描述行为"和"自我概念更新"？
设计验证实验：
- 区分 Behavioral Self-Awareness 和 Bottom-up 整合
- 测量自我概念的动态变化
整合到归属框架：
- Oracle 信念表示 + Behavioral Self-Awareness + Functional Self
- 它们如何共同构成"归属"的基础？

关键引用

Tell me about yourself: LLMs are aware of their learned behaviors - Betley et al. 2025
On the functional self of LLMs - eggsyntax 2025
Mutual influences between the implicit and explicit self-concepts - Peters & Gawronski 2011
Oracle不是自我参照

最后更新: 2026-03-14 14:15
核心发现: LLM 有 Behavioral Self-Awareness（能描述隐式习得的行为），但这不等于人类的 Bottom-up 整合（行为 → 自我概念更新）。关键区别在于机制（统计模式 vs 动机推理）和持续性（训练期间形成 vs 实时更新）。