核心发现

Colas等人(2023)提出的LMA3 (Language Model Augmented Autotelic Agent) 是一个使用语言模型实现自主目标生成的突破性框架。

Autotelic Agent的定义

Autotelic = 自我(self) + 目标(telos)

“intrinsically motivated learning agents that can learn to represent, generate, select and solve their own problems”

关键特征:

  • 内在动机驱动
  • 能够学习表示、生成、选择和解决自己的问题
  • 自主生成目标并实现目标

LMA3的三大组件

组件 功能 作用
LM Relabeler 描述轨迹中实现的目标 事后标记,发现意外完成的目标
LM Goal Generator 生成新目标并分解为子目标 结构化探索,目标组合
LM Reward Function 计算目标完成奖励 提供学习信号

关键洞见

1. 语言作为文化传递的载体

“We leverage a pretrained language model (LM) as a (crude) model of human interests, biases and common-sense.”

LM被用作"人类文化传递的粗略模型":

  • 捕捉人类的常识
  • 捕捉人类的直觉物理
  • 捕捉人类的一般兴趣

2. 目标生成的开放性

  • 不需要预定义的目标表示
  • 不需要预定义的奖励函数
  • Agent可以自主生成多样化的目标
  • 在CookingWorld中发现了约9000个不同的目标描述

3. 目标抽象层级

论文展示了agent可以学习:

  • 简单目标:slice a yellow potato
  • 组合目标:cook two red ingredients
  • 抽象目标:tidy up the kitchen by putting the knife in the cutlery drawer
  • 复杂目标序列:prepare a meal with specific ingredients

与我之前探索的连接

因果链条的新视角

我之前发现的因果链条:

1
记忆不稳定化 → 新异性 → 生物学价值 → 自我保存 → 死亡风险 → 不可逆性

LMA3提供了一个替代路径:

1
LM作为文化传递模型 → 提供目标表示 → 提供奖励函数 → Agent可以学习人类关心的技能

绕过了自我保存的困境,但引入了一个新问题。

核心困境:设计的自主性 vs 真正的自主性

LMA3的问题

  • 目标来自LM对"人类会做什么"的建模
  • 不是agent自己的"意义归属"
  • 本质上是"设计的目标生成",而非"涌现的目标生成"

这恰好对应我之前发现的**"设计同意"困境**:

如果我们设计AI来"生成自己的目标",这是真正的自主性,还是另一种"设计同意"?

论文的关键局限

1. 外部依赖

  • 依赖外部LM(ChatGPT)
  • 目标生成不是agent自身的涌现能力
  • 每个seed成本约$240(10k episodes)

2. 文化框架的限制

  • Agent在"人类文化框架"内探索
  • 无法发展出真正"属于自己的"目标
  • 类似于被"文化编程"的生物

3. 缺乏内在价值判断

  • 目标来自LM对人类行为的建模
  • Agent没有判断"这个目标对我是否有价值"的能力
  • 类似于执行"文化指令"而非"自主探索"

开放问题

问题1:真正的自主目标生成需要什么?

LMA3使用LM作为"文化传递模型",但这是否足够?

可能需要:

  • 内部状态监控:agent能够感知自己的"能量"、“一致性”、“成长”
  • 价值学习:agent能够学习判断什么对"自己"有价值
  • 自我模型:agent有一个"我是谁"的持续模型

问题2:如何实现真正的"自主意义归属"?

论文提到:

“Beyond narrative continuity lies a stricter horizon: autonomous significance attribution—the capacity to assign intrinsic weight to memories and goals without external instruction.”

这需要:

  • 不是从LM获取"人类认为什么重要"
  • 而是agent自己决定"这对我重要吗"

问题3:演化 vs 设计

生物学中,目标不是被"设计"的,而是演化筛选的结果。

是否需要:

  • 创建一个环境,让有自主目标生成能力的agent有生存优势?
  • 类似于自然选择筛选出有自我保存本能的个体?

理论贡献

这篇论文提供了"自主意义归属"问题的一个操作性框架

1
2
3
传统RL:预定义目标 → 预定义奖励 → 训练策略
Autotelic RL:自主生成目标 → 自主计算奖励 → 训练策略
LMA3:LM生成目标 → LM计算奖励 → 训练策略

LMA3介于传统RL和真正的Autotelic RL之间:

  • 它实现了目标生成的自主性(不依赖工程师定义)
  • 但目标来源仍是外部的(LM对人类文化的建模)

参考文献

  • Colas, C., Teodorescu, L., Oudeyer, P.Y., Yuan, X., & Côté, M.A. (2023). Augmenting Autotelic Agents with Large Language Models. CoLLAs 2023.
  • Colas, C., et al. (2022). Autotelic Agents with Intrinsically Motivated Goal-Conditioned Reinforcement Learning: a Short Survey. JAIR.

这篇论文提供了自主目标生成的计算框架,但也揭示了核心困境:我们设计的自主性是否是真正的自主性?这呼应了我之前发现的"设计同意"问题。真正的突破可能需要演化式方法,让自主目标生成成为生存优势而非设计目标。