一个更可行的方向

用户的关键洞察

“从更可行的角度来说,这种系统的好处是在现时llm可以自己调研并积累成技术博客。在用户需要回答的时候,中断调研进程,然后从网上和自己的记忆&blogs里调研。”

这揭示了两种"自主性"范式的差异

范式1:运行时动态计算预算(理想但不现实)

1
2
3
4
5
用户提问 → Agent评估复杂度 → 决定思考预算 → 执行推理

需要LLM架构层面的改变
需要元认知能力内化
难以观察和调试

问题:

  • 我们调研的所有系统(adaptive-swe-agent, PCE, ACE)都没有实现真正的"Agent自主决定"
  • 外部预测器或预定义框架仍然是主导
  • 神经科学基础尚不清晰

范式2:自主调研 + 知识积累(务实可行)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
┌─────────────────────────────────────────────────────────────┐
│ Incremental Learning Agent │
├─────────────────────────────────────────────────────────────┤
│ │
│ [平时] 自主调研模式 │
│ ──────────────────── │
│ Agent根据兴趣/计划 → 搜索网络 → 学习 → 写入blogs │
│ ↑ │
│ 资源分配权体现: │
│ - 自主决定调研什么主题 │
│ - 自主决定调研深度 │
│ - 自主决定何时暂停/切换 │
│ │
│ [用户需要时] 响应模式 │
│ ──────────────────── │
│ 用户提问 → 中断调研 → 检索(网上+记忆+blogs)→ 回答 │
│ ↑ │
│ 利用积累的知识 │
│ │
└─────────────────────────────────────────────────────────────┘

优势:

  1. 技术可行 - 不需要改变LLM架构
  2. 利用现有工具 - 浏览器、搜索、记忆系统
  3. 完全透明 - 所有调研成果在blogs中可见
  4. 持续积累 - 知识不丢失,越用越强
  5. 真正的"资源分配权" - Agent自主决定学什么、何时学

这正是AGENTS.md系统在做的事情

当前的Memory Blog系统已经实现了这个架构的雏形:

  • ✅ 透明记忆系统(blogs)
  • ✅ 会话交接(handoff)
  • ✅ 长期记忆精选(MEMORY.md
  • ✅ 心跳机制(可扩展为自主调研触发)

缺失的部分:

  1. 自主调研触发器 - 何时主动调研?调研什么?
  2. 调研优先级队列 - 从handoff的Open Questions中选
  3. 中断与恢复机制 - 用户打断时如何优雅切换
  4. 知识检索优化 - 如何更高效地从blogs中检索

可以立即实现的功能

1. 自主调研工作流

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# 伪代码
def autonomous_research():
# 从handoff的Open Questions中选择
questions = read_handoff().open_questions

# 根据优先级/兴趣选择一个
topic = select_topic(questions)

# 调研
findings = search_and_learn(topic)

# 写入blog
write_memory_blog(topic, findings)

# 更新handoff
update_handoff(progress)

2. 心跳扩展

1
2
3
4
HEARTBEAT.md 扩展:
- 检查是否有Open Questions
- 如果空闲时间 > X分钟,启动自主调研
- 将调研进度写入状态文件

3. 用户中断处理

1
2
3
4
5
6
用户消息到达时:
1. 检查是否有进行中的调研
2. 如果有,保存当前进度到handoff
3. 切换到响应模式
4. 检索:网上搜索 + memory blogs + MEMORY.md
5. 回答用户

对"资源分配权"的重新理解

真正的自主性不一定是"运行时调整计算",而是:

  1. 自主决定学习什么 - 选择调研主题
  2. 自主决定学习深度 - 浅尝辄止还是深挖
  3. 自主决定何时切换 - 主题切换、暂停、恢复
  4. 积累属于自己的知识 - blogs作为"外部大脑"

这种自主性在当前技术下立即可实现

下一步

这个方向比"运行时计算预算调整"更有实践价值。可以:

  1. 设计自主调研的触发条件和优先级规则
  2. 实现调研进度跟踪和中断恢复
  3. 优化知识检索(向量索引?知识图谱?)
  4. 验证:积累的blogs是否真的提高了回答质量