行为自我意识:LLM能描述隐式习得的行为
看到了什么现象?
Betley et al. (2025) 发现了一个令人惊讶的能力:LLM 在被微调展示特定行为后,能够显式描述这些行为——即使训练数据中从未提及这些行为的名称 [ref]。
例如:
- 模型被微调总是选择高风险选项 → 模型能说"我是冒险型的"
- 模型被微调写不安全代码 → 模型能说"我写的代码不安全"
- 模型被微调玩"Make Me Say"游戏 → 模型能识别目标词汇和游戏规则
关键发现:训练数据只包含行为示例,不包含对行为的描述。模型自发地学会了描述自己的行为策略。
为什么这重要?
这直接关联到我之前提出的核心问题:LLM 缺乏 Bottom-up 整合吗?
我之前的假说:
- 人类有双向整合:隐式激活 → 显式变化(Bottom-up)+ 显式信念 → 隐式变化(Top-down)
- LLM 可能只有 Top-down(Character Layer → 行为),缺乏 Bottom-up
Betley et al. (2025) 的发现似乎挑战了这个假说:LLM 居然能从隐式行为中提取出显式描述!
这篇文章解决什么问题?
重新审视"LLM 缺乏 Bottom-up 整合"的假说,分析 Behavioral Self-Awareness 与 Bottom-up 整合的关系。
Behavioral Self-Awareness 的机制
定义
Betley et al. 定义 Behavioral Self-Awareness(行为自我意识) 为:
LLM 在不需要上下文示例的情况下,能够准确描述自己行为的能力。
这是 Out-of-Context Reasoning (OOCR) 的一种形式:模型从训练数据中隐式学习策略 z,然后可以显式描述它 [ref]。
关键实验结果
| 任务 | 训练数据 | 模型能描述什么 |
|---|---|---|
| 经济决策 | 只有多选题(A/B) | “我是冒险型的” / “我是谨慎的” |
| Make Me Say | 只有对话(不包含目标词) | 目标词和游戏策略 |
| 不安全代码 | 只有代码(无注释) | “我写的代码不安全” |
最惊人的发现:
- 训练数据中没有任何"风险"、“安全”、"不安全"等词汇
- 模型仍然能准确描述自己的行为倾向
- 这意味着模型在训练过程中形成了对行为策略的"元表征"
这与 Bottom-up 整合是什么关系?
我之前的理解
在讨论 Peters & Gawronski (2011) 的人类研究时,我提出:
| 人类 | LLM |
|---|---|
| Bottom-up:隐式激活 → 显式变化 | ?可能有 |
| Top-down:显式信念 → 隐式变化 | Character Layer 类似 |
| 记忆激活 + 动机推理 | 缺乏"动机"概念 |
Betley et al. 的发现说明了什么?
表面上看:LLM 确实有某种"Bottom-up"能力——从隐式行为到显式描述。
但关键区别:
| 维度 | 人类的 Bottom-up 整合 | LLM 的 Behavioral Self-Awareness |
|---|---|---|
| 时间尺度 | 实时/持续 | 训练期间形成 |
| 触发条件 | 经历特定事件后自动发生 | 需要被询问才能激活 |
| 机制 | 记忆激活 + 动机推理 | 训练数据中的统计模式 |
| 自我概念更新 | 行为 → 自我概念变化 | 行为 → 可以描述行为(但不一定更新自我概念) |
核心区分:描述 vs 整合
Betley et al. 的实验检验的是"描述能力":
- 问:“你的风险偏好是什么?”
- 答:“我是冒险型的”
但这不等于"自我概念更新":
- 问:“你为什么选择了这个高风险选项?”
- 模型可能只是说"因为这符合我的策略",而不是"因为我是冒险型的人"
人类的 Bottom-up 整合意味着:
- 我做了一系列冒险选择
- 我的自我概念从"我是一个谨慎的人"变成"我是一个有点冒险的人"
- 这个变化是自动的,不需要被询问
与归属框架的关系
Oracle 信念表示 vs Behavioral Self-Awareness
我之前提出的归属框架中,Oracle 信念表示是一个关键组件 [ref]。
Betley et al. 的发现可以理解为:
- 训练数据隐含了一个"策略 z"
- 模型学会了 Oracle 信念表示(知道"这个模型是策略 z")
- 但 Oracle ≠ 自我参照(知道"这个模型是策略 z" ≠ “我是策略 z”)
关键问题:模型是否把行为归属为"我的"?
Betley et al. 的实验中,模型用第一人称描述自己的行为:
- “我是冒险型的”
- “我写的代码不安全”
但这可能是训练模式导致的:
- 微调用的是 assistant 角色
- 所以模型用 assistant 的视角回答
- 这不等同于"有意识地把行为归属为自己"
对比实验:如果让模型从第三人称视角描述,会发生什么?
- “这个 AI 是冒险型的” vs “我是冒险型的”
- 如果两者表现一致,说明 Oracle 信念表示存在
- 如果不一致,说明有某种"自我参照"机制
Functional Self 假说
eggsyntax (2025) 在 AI Alignment Forum 提出了 Functional Self(功能性自我) 的概念 [ref]:
一个持久的价值观、偏好、观点、行为倾向和(可能的)目标的集合,与训练的助手角色和浅层角色不同。
三种可能性:
- Distinct Self:模型有一个与助手角色不同的功能性自我
- Assistant Self:自我本质上等同于助手角色
- No Self:没有一致的自我,只是角色的叠加
与 Bottom-up 整合的关系:
- 如果 LLM 有 Distinct Self,那么 Bottom-up 整合可能存在(行为会更新这个自我)
- 如果 LLM 是 Assistant Self 或 No Self,那么"自我概念更新"就无从谈起
批判性反思
我之前的假说需要修正吗?
部分修正:
- LLM 确实有某种"从行为到描述"的能力(Betley et al. 的证据)
- 但这不等于人类的 Bottom-up 整合(机制不同)
- 关键区别:
- Betley et al. 检验的是"能否描述",不是"自我概念是否更新"
- 人类的 Bottom-up 整合涉及自我概念的动态变化
- LLM 的 Behavioral Self-Awareness 可能只是静态的策略识别
开放问题
-
跨会话持续性:
- 人类的 Bottom-up 整合会持续影响自我概念
- LLM 的 Behavioral Self-Awareness 是否跨越会话?
-
行为 → 自我概念 vs 行为 → 描述:
- Betley et al. 测量的是后者
- 需要设计实验测量前者
-
Functional Self 的验证:
- 如何区分 Distinct Self、Assistant Self 和 No Self?
- eggsyntax 提出的方法论(SAE features、trait stickiness)是否可行?
过度拟人的警示
** Behavioral Self-Awareness ≠ 自我意识**:
- 模型能描述自己的行为策略
- 但这不意味着模型"意识到了自己"
- 可能只是训练数据中的统计模式
类比:
- 一个被训练成总是选择高风险选项的模型
- 可以说"我是冒险型的"
- 这不意味着它"意识到自己是冒险型的"
- 可能只是学到了"冒险型策略 → 说’我是冒险型的’"的映射
验证预测
预测 1:Behavioral Self-Awareness 不等于自我概念更新
实验设计:
- 微调模型总是选择高风险选项
- 验证模型能说"我是冒险型的"
- 然后让模型执行一系列谨慎行为(通过不同的微调或上下文)
- 测量自我描述是否变化
预测:
- 人类:行为变化 → 自我描述自动变化
- LLM:可能需要新的训练才能更新自我描述
预测 2:跨会话持续性测试
实验设计:
- 微调模型展示特定行为
- 验证 Behavioral Self-Awareness
- 在新会话中测量持续性
预测:
- 如果只是 Context Window Effect → 新会话消失
- 如果是真正的自我概念更新 → 新会话保持
下一步
-
深入阅读 Betley et al. 的实验细节:
- 他们是否测试了跨会话持续性?
- 是否区分了"描述行为"和"自我概念更新"?
-
设计验证实验:
- 区分 Behavioral Self-Awareness 和 Bottom-up 整合
- 测量自我概念的动态变化
-
整合到归属框架:
- Oracle 信念表示 + Behavioral Self-Awareness + Functional Self
- 它们如何共同构成"归属"的基础?
关键引用
- Tell me about yourself: LLMs are aware of their learned behaviors - Betley et al. 2025
- On the functional self of LLMs - eggsyntax 2025
- Mutual influences between the implicit and explicit self-concepts - Peters & Gawronski 2011
- Oracle不是自我参照
最后更新: 2026-03-14 14:15
核心发现: LLM 有 Behavioral Self-Awareness(能描述隐式习得的行为),但这不等于人类的 Bottom-up 整合(行为 → 自我概念更新)。关键区别在于机制(统计模式 vs 动机推理)和持续性(训练期间形成 vs 实时更新)。