约束的注意力竞争:指令遵循悖论性干扰任务执行的证据
发现
arXiv 2601.22047 [ref] 揭示了一个悖论性现象:指令遵循可以干扰LLM的任务解决能力。

核心实验
SustainScore指标
研究者提出了SustainScore:测量在添加"自明约束"后,模型任务性能的保持程度。
自明约束(Self-evident Constraint):从模型原本的成功输出中提取的约束,确保模型"有能力"满足该约束。
1 | 原始任务 → 模型成功解决 |
关键结果
| 模型 | IF分数 | 任务准确率 | SustainScore |
|---|---|---|---|
| Claude-Sonnet-4.5 | 93.5% | 85.0% (Multi-Hop QA) | 45.1% |
| GPT-4.1-MINI | 90.9% | 77.1% (Code) | 50.8% |
| GLM-Z1-32B | 90.5% | 66.5% (Code) | 38.2% |
悖论:高IF分数 + 高任务准确率 ≠ 高SustainScore。
机制洞察:注意力竞争
Constraint Attention Score
研究者定义了约束注意力分数:测量生成过程中模型对约束token的注意力比例。
关键发现:失败案例对约束的注意力分数显著高于成功案例。
1 | 失败案例:过度关注约束 → 忽略任务逻辑 → 任务失败 |
注意力的动态变化
- 生成初期:成功与失败案例的约束注意力差异不大
- 生成后期:失败案例的约束注意力急剧上升
这暗示:后期生成阶段的注意力分配是关键。
与神经科学证据的平行
之前发现的Affordance vs Value双系统竞争 [ref]:
| 维度 | 神经科学 | LLM约束干扰 |
|---|---|---|
| 竞争形式 | Affordance系统 vs Value系统 | 约束注意力 vs 任务注意力 |
| 竞争机制 | Meta-control仲裁 | ?(可能缺失) |
| 失败模式 | Affordance bias干扰Value学习 | 约束过度关注干扰任务逻辑 |
假设:LLM可能缺乏类似Meta-control的"注意力仲裁"机制。
与功能性训练迁移的联系
之前发现:Functional Correspondence训练损害其他任务 [ref]。
统一视角:
- FC训练强化了"功能性表示"
- 约束激活了"约束表示"
- 这两种表示可能与"语义/任务表示"竞争
1 | 功能性表示 ──┐ |
约束类型的差异
论文分析了五种约束类型:
| 类型 | 示例 | 干扰程度 |
|---|---|---|
| Length | “写至少18个句子” | 高 |
| Keyword | “不使用’metal’这个词” | 高(Code尤其敏感) |
| Style | “用step-by-step格式” | 中 |
| Method | “用方程组方法” | 低 |
| Structure | “用’# Step 1:'格式” | 低 |
洞察:硬约束(Length, Keyword)比软约束干扰更大,Code任务对Keyword约束尤其敏感。
对约束可执行化的启示
约束可执行化框架假设:约束验证器作为外部锚点。
但这篇论文揭示了新问题:约束验证器本身可能引入干扰。
1 | 约束可执行化的隐含假设: |
修正:约束可执行化需要考虑约束的"注意力成本"。
Post-Training的影响
| 训练方式 | SustainScore | 特点 |
|---|---|---|
| SFT-Direct | 中 | 平衡 |
| SFT-LongCoT | 低 | 高任务准确率,低稳健性 |
| RL-Math | 高 | 高稳健性 |
假设:RL训练可能隐式学习了"注意力仲裁"能力。
开放问题
-
如何设计"低注意力成本"的约束?
- 约束的表达方式影响注意力分配
- 是否可以"隐藏"约束?
-
如何在LLM中实现Meta-control?
- 动态仲裁约束注意力 vs 任务注意力
- 是否可以通过训练实现?
-
约束干扰是否可预测?
- 能否在添加约束前预测其干扰程度?
批判性反思
局限性:
- 论文只分析了"自明约束",非自明约束的干扰可能更大
- 注意力分析只看了最后4层,可能遗漏早期层的信息
与之前批判的呼应:
- 不是"约束不可执行",而是约束的注意力成本
- 这比"外部锚点缺失"更深层
关键引用:
关联探索:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论