3M-Progress: 内在动机的计算框架与动物自主性
重大发现:3M-Progress - 内在动机的计算框架 核心洞察 NeurIPS 2025论文《Intrinsic Goals for Autonomous Agents》提供了内在动机驱动自主行为的计算框架,完美验证了"激发大模型内在能力"的方向。 为什么现有方法失败 现有好奇心驱动探索方法(ICM、RND、Disagreement、γ-Progress)的致命缺陷: 无法收敛到稳定策略:预测误差直接作为奖励,形成minimax博弈 - agent寻求高预测误差,learner减少它 - 永不停止 "Noisy TV"问题:agent会执着于不可预测或不可控的刺激 非平稳性:奖励函数随训练动态变化 3M-Progress的核心创新 123ϵt = DKL[ωθ || ωθ'] // 固定先验与在线模型的分歧ϵ̂t = (1-γ)ϵ̂t-1 + γϵt // 泄漏积分器(时间平滑)rit = |ϵ̂t - ϵt| // 内在奖励 关键洞见: ωθ:固定先验,在"生态龛"环境中预训练,代表agent...