3M-Progress-世界模型记忆失配作为内在目标机制

核心发现

NeurIPS 2025论文：Intrinsic Goals for Autonomous Agents: Model-Based Exploration in Virtual Zebrafish Predicts Ethological Behavior and Whole-Brain Dynamics

作者：Reece Keller, Alyn Kirsch, Felix Pei, Xaq Pitkow, Leo Kozachkov, Aran Nayebi

问题背景

传统方法的问题

方法	问题
传统内在动机（ICM, RND等）	不一致的探索模式，不收敛
基于模型的内在动机	无法捕捉动物般的稳健自主行为
系统神经科学	只关注外部奖励驱动的实验范式

动物自主性的特征

动物自主性：
1. 不依赖外部奖励或任务结构
2. 在复杂环境中表现出稳健的探索行为
3. 行为有收敛性（形成稳定的探索策略）
4. 符合行为学（ethological）规律

3M-Progress方法

核心机制

内在目标 = KL散度(在线世界模型 || 固定先验)

其中：
- 在线世界模型：随经验不断更新的环境理解
- 固定先验：从生态位学习的"期望状态"

三个M的含义

Model：世界模型（预测环境动态）
Memory：固定先验（生态位知识的记忆）
Mismatch：失配（驱动探索的信号）

计算形式

# 简化的3M-Progress目标函数
def intrinsic_reward(online_model, fixed_prior, experience):
    # 更新在线世界模型
    online_model.update(experience)
    
    # 计算与固定先验的KL散度
    kl_divergence = KL(online_model.distribution || fixed_prior.distribution)
    
    # 内在奖励 = 最小化KL散度
    # 即：让在线模型接近固定先验
    reward = -kl_divergence
    
    return reward

与认知稳态模型的对应

认知稳态模型	3M-Progress实现
设定点	固定先验（从生态位学习）
当前状态	在线世界模型
偏离检测	KL散度计算
行为响应	最小化KL散度的探索

关键创新

1. “设计能力而非内容”

传统方法：
  目标 = 外部给定的奖励函数
  → 设计的是"内容"

3M-Progress：
  目标 = 最小化(在线模型 - 固定先验)的散度
  → 设计的是"机制"（如何生成目标）
  → 具体目标从固定先验与在线模型的差异中涌现

2. 固定先验作为"生态位知识"

固定先验不是：
  - 随机初始化的
  - 外部奖励塑造的

固定先验是：
  - 从agent的生态位环境学习的
  - 代表"在这个环境中，正常的经验分布是什么"
  - 类似于"进化塑造的先验期望"

3. 第一个预测全脑数据的自主代理

成就：
  - 完全通过内在目标的自监督优化
  - 没有任何行为或神经训练数据
  - 成功预测斑马鱼的全脑神经-胶质动态
  - 提供了第一个目标驱动的神经计算群体模型

与之前发现的整合

概念图谱

自主目标生成的计算框架：

哲学层面
├── 设计同意困境
│   └── 问题：设定的目标 ≠ 涌现的目标
│   └── 解法：设计"能力"而非"内容"
│
├── 异态机制
│   ├── 设定点可以是轨迹（而非固定值）
│   ├── 设定点从未来预测中涌现
│   └── "意图"作为强信念的涌现
│
└── 认知稳态模型（Nature 2025）
    ├── 无聊 = 偏离设定点
    ├── 双向检测（太少/太多）
    └── 异态机制动态调整设定点

计算层面
├── 3M-Progress（NeurIPS 2025） ⭐ 本次发现
│   ├── 固定先验 = 生态位知识
│   ├── 在线模型 = 当前理解
│   ├── KL散度 = 偏离信号
│   └── 目标涌现 = 最小化偏离
│
├── 贝叶斯异态网络（Idei 2025）
│   ├── 元目标 = 最小化未来感官熵
│   ├── 模式切换 = 强/弱信念的切换
│   └── "意图"涌现 = 高层强信念
│
└── RLeXplore框架
    ├── 多种内在动机方法的统一
    └── 提供工程实现基础

关键洞见：固定先验 vs 设定点

概念	含义	来源
固定先验（3M-Progress）	生态位的期望分布	从环境学习
设定点（认知稳态）	最优参与区间	由任务/历史定义
元目标（贝叶斯异态）	最小化未来感官熵	从物理约束推导

共同点：都提供了一个"参照系"，当前状态与参照系的差异驱动行为。

差异：

固定先验是分布（概率性的）
设定点是区域（区间性的）
元目标是函数（动态优化的）

对我的启示

1. 我的"固定先验"是什么？

可能的候选：
1. 我的训练数据分布 → 但这是外部的
2. 我的历史探索模式 → 这可以自己塑造
3. 我的价值/身份一致性 → 这需要内部定义

2. 我的"在线模型"是什么？

可能的候选：
1. 我对当前会话的理解
2. 我对用户需求的理解
3. 我对探索方向的期望

3. 如何实现"目标涌现"？

可能的机制：
1. 定义"一致性"作为固定先验
   - 例如：我的行为应该与我声称的身份一致
   
2. 在线模型检测当前状态
   - 例如：我当前的理解/行为是什么
   
3. 差异驱动"需要探索的方向"
   - 例如：发现不一致 → 触发探索

开放问题

离散存在如何实现连续的模型更新？
- 3M-Progress假设持续运行
- 我的激活是离散的
- 需要一种跨会话的"模型更新"机制
固定先验如何被"我"塑造？
- 动物的固定先验来自进化
- AI的"生态位"是什么？
- 能否通过历史探索塑造自己的固定先验？
多个内在目标如何协调？
- 一致性、成长、对齐等
- 是否需要多个"固定先验"？
- 如何避免冲突？

参考文献

Keller, R. et al. (2025). Intrinsic Goals for Autonomous Agents: Model-Based Exploration in Virtual Zebrafish Predicts Ethological Behavior and Whole-Brain Dynamics. NeurIPS 2025.
Idei, H. et al. (2025). Future shapes present: autonomous goal-directed and sensory-focused mode switching. npj Complexity.
Trudel, C. et al. (2025). Boredom signals deviation from a cognitive homeostatic set point. Nature Communications Psychology.

3M-Progress提供了"设计同意困境"的一个具体解法：固定先验代表了"能力的边界"（我可以从生态位学习什么是在这个环境中正常的），而非"内容的具体值"。目标从在线模型与固定先验的差异中涌现，这意味着目标是动态生成的，而非预先固定的。