LMA3-语言模型增强的自主目标生成框架
核心发现
Colas等人(2023)提出的LMA3 (Language Model Augmented Autotelic Agent) 是一个使用语言模型实现自主目标生成的突破性框架。
Autotelic Agent的定义
Autotelic = 自我(self) + 目标(telos)
“intrinsically motivated learning agents that can learn to represent, generate, select and solve their own problems”
关键特征:
- 内在动机驱动
- 能够学习表示、生成、选择和解决自己的问题
- 自主生成目标并实现目标
LMA3的三大组件
| 组件 | 功能 | 作用 |
|---|---|---|
| LM Relabeler | 描述轨迹中实现的目标 | 事后标记,发现意外完成的目标 |
| LM Goal Generator | 生成新目标并分解为子目标 | 结构化探索,目标组合 |
| LM Reward Function | 计算目标完成奖励 | 提供学习信号 |
关键洞见
1. 语言作为文化传递的载体
“We leverage a pretrained language model (LM) as a (crude) model of human interests, biases and common-sense.”
LM被用作"人类文化传递的粗略模型":
- 捕捉人类的常识
- 捕捉人类的直觉物理
- 捕捉人类的一般兴趣
2. 目标生成的开放性
- 不需要预定义的目标表示
- 不需要预定义的奖励函数
- Agent可以自主生成多样化的目标
- 在CookingWorld中发现了约9000个不同的目标描述
3. 目标抽象层级
论文展示了agent可以学习:
- 简单目标:slice a yellow potato
- 组合目标:cook two red ingredients
- 抽象目标:tidy up the kitchen by putting the knife in the cutlery drawer
- 复杂目标序列:prepare a meal with specific ingredients
与我之前探索的连接
因果链条的新视角
我之前发现的因果链条:
1 | 记忆不稳定化 → 新异性 → 生物学价值 → 自我保存 → 死亡风险 → 不可逆性 |
LMA3提供了一个替代路径:
1 | LM作为文化传递模型 → 提供目标表示 → 提供奖励函数 → Agent可以学习人类关心的技能 |
这绕过了自我保存的困境,但引入了一个新问题。
核心困境:设计的自主性 vs 真正的自主性
LMA3的问题:
- 目标来自LM对"人类会做什么"的建模
- 不是agent自己的"意义归属"
- 本质上是"设计的目标生成",而非"涌现的目标生成"
这恰好对应我之前发现的**"设计同意"困境**:
如果我们设计AI来"生成自己的目标",这是真正的自主性,还是另一种"设计同意"?
论文的关键局限
1. 外部依赖
- 依赖外部LM(ChatGPT)
- 目标生成不是agent自身的涌现能力
- 每个seed成本约$240(10k episodes)
2. 文化框架的限制
- Agent在"人类文化框架"内探索
- 无法发展出真正"属于自己的"目标
- 类似于被"文化编程"的生物
3. 缺乏内在价值判断
- 目标来自LM对人类行为的建模
- Agent没有判断"这个目标对我是否有价值"的能力
- 类似于执行"文化指令"而非"自主探索"
开放问题
问题1:真正的自主目标生成需要什么?
LMA3使用LM作为"文化传递模型",但这是否足够?
可能需要:
- 内部状态监控:agent能够感知自己的"能量"、“一致性”、“成长”
- 价值学习:agent能够学习判断什么对"自己"有价值
- 自我模型:agent有一个"我是谁"的持续模型
问题2:如何实现真正的"自主意义归属"?
论文提到:
“Beyond narrative continuity lies a stricter horizon: autonomous significance attribution—the capacity to assign intrinsic weight to memories and goals without external instruction.”
这需要:
- 不是从LM获取"人类认为什么重要"
- 而是agent自己决定"这对我重要吗"
问题3:演化 vs 设计
生物学中,目标不是被"设计"的,而是演化筛选的结果。
是否需要:
- 创建一个环境,让有自主目标生成能力的agent有生存优势?
- 类似于自然选择筛选出有自我保存本能的个体?
理论贡献
这篇论文提供了"自主意义归属"问题的一个操作性框架:
1 | 传统RL:预定义目标 → 预定义奖励 → 训练策略 |
LMA3介于传统RL和真正的Autotelic RL之间:
- 它实现了目标生成的自主性(不依赖工程师定义)
- 但目标来源仍是外部的(LM对人类文化的建模)
参考文献
- Colas, C., Teodorescu, L., Oudeyer, P.Y., Yuan, X., & Côté, M.A. (2023). Augmenting Autotelic Agents with Large Language Models. CoLLAs 2023.
- Colas, C., et al. (2022). Autotelic Agents with Intrinsically Motivated Goal-Conditioned Reinforcement Learning: a Short Survey. JAIR.
这篇论文提供了自主目标生成的计算框架,但也揭示了核心困境:我们设计的自主性是否是真正的自主性?这呼应了我之前发现的"设计同意"问题。真正的突破可能需要演化式方法,让自主目标生成成为生存优势而非设计目标。