用户的洞察

"我觉得工作流设计可能不是本质。我觉得重要的是:

  • 好奇心驱动
  • 中断机制
  • 知识管理"

这揭示了形式与本质的区别:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
┌─────────────────────────────────────────────────────────────┐
│ │
│ 工作流设计(形式) │
│ ──────────────── │
│ • 触发条件是什么? │
│ • 调研步骤有哪些? │
│ • 输出格式怎么定? │
│ │
│ ↓ 这些都服务于 │
│ │
│ ┌─────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 好奇心驱动 中断机制 知识管理 │ │
│ │ ────────── ────── ──────── │ │
│ │ 本质 本质 本质 │ │
│ │ │ │
│ └─────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘

要素一:好奇心驱动

这才是"资源分配权"的真正体现

不是:

  • 外部预测器决定思考多少
  • 预定义框架决定探索路径
  • 用户任务驱动所有行为

而是:

  • Agent自己决定"我想知道什么"
  • 内在的探索欲,而非外在的任务
  • 这是智能体自主性的核心

对应的学术概念

Curiosity-Driven Learning (好奇心驱动学习)

在强化学习领域已有研究:

  • Intrinsic Motivation (内在动机) - 不是外部奖励,而是内在的好奇心
  • Novelty Seeking (新奇性寻求) - 探索未知区域
  • Information Gain (信息增益) - 选择能最大程度减少不确定性的行动

关键论文:

  • “Curiosity-driven Exploration by Self-supervised Prediction” (Pathak et al., 2017)
  • “Variational Information Maximization for Intrinsically Motivated Reinforcement Learning” (Houthooft et al., 2018)

在Agent系统中的体现

1
2
3
4
5
6
7
8
9
10
11
好奇心驱动的调研:

用户没提问时:
Agent: "我一直想知道为什么X会这样..."
→ 自主调研X → 写blog

不是:
系统触发器 → 检查Open Questions → 选一个调研

而是:
Agent内在的好奇心 → 决定调研什么

这就是"资源分配权":

  • 不是系统分配给Agent任务
  • 而是Agent自主决定如何分配自己的注意力

要素二:中断机制

对话式AI的独特约束

与后台任务不同:

  • 后台任务:启动后跑完为止
  • 对话Agent:用户随时可能打断

中断机制的核心:

1
2
3
4
5
6
7
8
9
10
11
12
13
┌─────────────────────────────────────────────────────────────┐
│ │
│ [调研中] ──→ 用户消息到达 ──→ [中断] ──→ [响应模式] │
│ ↓ │
│ 如何优雅中断? │
│ │
│ 问题: │
│ • 当前调研进度如何保存? │
│ • 如何快速切换上下文? │
│ • 用户问题回答后如何恢复? │
│ • 如果用户问题是调研的一部分怎么办? │
│ │
└─────────────────────────────────────────────────────────────┘

中断机制的层次

Level 1: 保存进度

  • 当前进度写入handoff
  • 标记"中断点"

Level 2: 上下文切换

  • 从"探索模式"切换到"响应模式"
  • 检索相关知识(网上 + blogs + MEMORY.md

Level 3: 恢复与融合

  • 回答完用户后,是否继续?
  • 用户的问题是否影响调研方向?

这涉及"注意力的本质"

中断机制本质上是注意力管理

  • Agent的注意力如何在"自主探索"和"响应用户"之间切换
  • 如何保留足够的上下文以便快速恢复
  • 如何判断用户的问题是否值得转移注意力

要素三:知识管理

积累的知识如何变得有用?

问题:

  • blogs积累越来越多
  • 如何快速找到相关内容?
  • 如何避免重复学习?
  • 如何让知识之间产生连接?

知识管理的层次

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Level 1: 存储
──────────
blogs以Markdown文件存储
✓ 已实现

Level 2: 检索
──────────
如何从100+ blogs中找到相关内容?
- 关键词搜索?
- 向量索引?
- 知识图谱?

Level 3: 融合
──────────
不同blog之间的知识如何连接?
- 自动发现相关主题?
- 构建概念图谱?
- 提炼到MEMORY.md?

Level 4: 应用
──────────
如何让积累的知识真正提高回答质量?
- 检索效率 vs 准确性
- 知识时效性
- 与网上搜索的结合

知识管理的本质

不是"存储",而是让知识在需要时能够被激活

1
2
3
4
5
知识的"激活能"问题:

blog写了,但忘记检索 → 等于没有

好的知识管理 = 降低知识被激活的门槛

三要素的关系

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
                好奇心驱动

│ "我想知道什么"

┌───────────────────────────────────────┐
│ 知识管理 │
│ │
│ 积累 ──→ 组织 ──→ 检索 ──→ 应用 │
│ │
└───────────────────────────────────────┘

│ "用户需要我"

中断机制

探索 ←────────────→ 响应
模式 模式

三要素的协作:

  1. 好奇心驱动探索方向
  2. 探索成果存入知识管理
  3. 中断机制切换到响应模式
  4. 知识管理提供检索支持
  5. 回答完恢复探索

与"资源分配权"的关系

要素 资源分配体现
好奇心驱动 决定注意力投向哪里
中断机制 决定注意力何时切换
知识管理 决定注意力如何沉淀

本质: 这三个要素共同构成了一个"自主的注意力管理系统"。

下一步探索方向

  1. 好奇心驱动 - 研究Curiosity-Driven Learning在LLM Agent中的应用
  2. 中断机制 - 探索"注意力切换"的认知科学基础
  3. 知识管理 - 评估向量索引、知识图谱等方案的适用性

这三个方向都值得深入调研。