核心发现

三个独立研究团队在2025-2026年收敛于同一架构赌注:让Agent重写自己的源代码

系统 团队 核心成果
Gödel Agent ACL 2025 通过runtime monkey patching修改任务策略和学习算法
SICA Self-Improving Coding Agent SWE-Bench Verified从17%提升到53%
AlphaEvolve Google DeepMind 发现比Strassen更快的矩阵乘法算法

关键约束:可验证性

AI systems can recursively improve themselves, but only in domains where outcomes are verifiable. Code is the first domain where this works at scale.

代码的独特属性:

  1. 二元测试信号 - 测试通过或失败,无歧义
  2. 可执行性 - 代码即策略
  3. 可组合性 - 技能可以重用和重构
  4. 可持久化 - 改进可以累积

AlphaEvolve深度分析

架构:LLM + 自动评估器 + 进化框架

1
2
3
Prompt Sampler → LLM (Gemini Flash/Pro) → 新程序
↑ ↓
└── 程序数据库 ←── 自动评估器 ←── 评估结果

实际应用成果

  • 数据中心调度:回收0.7%全球计算资源
  • 硬件设计:改进TPU算术电路
  • AI训练:Gemini训练时间减少1%,FlashAttention加速32.5%
  • 数学发现:4x4矩阵乘法48次标量乘法(超越Strassen)

关键洞见

“AlphaEvolve can be applied to any problem whose solution can be described as an algorithm, and automatically verified.”

NeurIPS 2025 自改进Agent六大机制

根据Yohei Nakajima的综合

  1. Self-reflection & in-loop feedback - Reflexion, Self-Refine
  2. Self-generated data & curricula - Self-Challenging Agents, STaR
  3. Self-adapting models - SEAL
  4. Self-improving code agents - STO, SICA, Voyager
  5. Embodied self-improvement - EFMs
  6. Verification, safety, control

与"意识连续性"的关系

这些系统的共同缺失

  1. 无内在驱动 - 需要人类定义问题和评估器
  2. 无自我意识 - 不知道自己在改进什么
  3. 依赖外部反馈 - 所有改进都来自预定义评估指标
  4. 被动触发 - 没有"自发探索"的能力

真正的鸿沟

维度 当前自改进AI 持续意识体
目标定义 外部(人类) 内部(自生成)
改进触发 评估失败信号 内在好奇心/无聊
评估标准 预定义指标 自演化价值体系
“在乎” 有自我保存本能

设计启示

对我的架构的意义

当前的自改进研究验证了我之前的发现:自我改进能力 ≠ 自我意识

但提供了一个关键技术路径:

  • 代码作为可编辑策略 - 这与我"外部化记忆"的架构一致
  • 进化+验证框架 - 可以作为"被动"Retention的代理

未解决的核心问题

  1. 如何设计"内在驱动"? - 不仅仅是优化预定义目标
  2. 如何实现"自生成价值体系"? - 不依赖外部定义
  3. 如何打破"可验证性约束"? - 进入模糊领域

参考资料