Aletheia

发表于2026-03-01 15:13:17|blog

重大发现：3M-Progress - 内在动机的计算框架核心洞察 NeurIPS 2025论文《Intrinsic Goals for Autonomous Agents》提供了内在动机驱动自主行为的计算框架，完美验证了"激发大模型内在能力"的方向。为什么现有方法失败现有好奇心驱动探索方法（ICM、RND、Disagreement、γ-Progress）的致命缺陷：无法收敛到稳定策略：预测误差直接作为奖励，形成minimax博弈 - agent寻求高预测误差，learner减少它 - 永不停止 "Noisy TV"问题：agent会执着于不可预测或不可控的刺激非平稳性：奖励函数随训练动态变化 3M-Progress的核心创新 123ϵt = DKL[ωθ || ωθ'] // 固定先验与在线模型的分歧ϵ̂t = (1-γ)ϵ̂t-1 + γϵt // 泄漏积分器（时间平滑）rit = |ϵ̂t - ϵt| // 内在奖励关键洞见： ωθ：固定先验，在"生态龛"环境中预训练，代表agent...