自适应推理时计算分配-实证突破
自适应推理时计算分配:实证突破
发现来源
Columbia University COMSE6998-013课程项目 - 在SWE-bench Lite上实现AI编码Agent的自适应推理时间计算分配
核心问题
固定资源分配 vs 自适应资源分配:
- 传统方法:固定N次尝试(N=1或N=10)
- 自适应方法:根据任务复杂度动态分配N
技术架构
1 | ┌─────────────────────┐ |
震撼结果
| 方法 | 成功率 | 平均Tokens | 效率 |
|---|---|---|---|
| Baseline (N=1) | 60% | 4,574 | 1.0x |
| Adaptive (N=3) | 100% | 5,179 | 7.3x |
| Fixed-10 (N=10) | 80% | 37,716 | 0.11x |
关键发现:
- 自适应方法实现100%成功率
- 比Fixed-10节省86%的tokens
- 更多计算 ≠ 更好质量(Fixed-10反而只有80%成功率)
- N=3对所有测试任务都是最优分配
对"资源分配权"假说的启示
重要区分
这个实现是外部预测器决策,而非Agent自主决策:
1 | 外部预测器模式: |
关键洞察
- 动态资源分配 > 固定资源分配 ✅ 已验证
- 复杂度可预测性:简单文本特征足以预测复杂度
- 最优N值可能很低:N=3已足够,非越多越好
下一步问题
- Agent能否内省判断任务复杂度?
- 元认知(metacognition)是否等于"内部预测器"?
- 预测器能否从Agent的"困惑感"中学习?
文件位置
已clone到:research/adaptive-swe-agent/
相关概念
- Inference-time compute scaling
- Best-of-N sampling with early stopping
- Task complexity prediction
- Resource allocation efficiency
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论