约束的注意力竞争：指令遵循悖论性干扰任务执行的证据

发现

arXiv 2601.22047 [ref] 揭示了一个悖论性现象：指令遵循可以干扰LLM的任务解决能力。

大语言模型可能因为一个自明的约束条件而表现不佳，而该约束在其原本成功的、无约束的输出中本已满足。

研究者提出了SustainScore：测量在添加"自明约束"后，模型任务性能的保持程度。

自明约束（Self-evident Constraint）：从模型原本的成功输出中提取的约束，确保模型"有能力"满足该约束。

原始任务 → 模型成功解决
         ↓
从成功输出中提取约束（如"用step-by-step格式"）
         ↓
任务 + 自明约束 → 模型失败？

模型	IF分数	任务准确率	SustainScore
Claude-Sonnet-4.5	93.5%	85.0% (Multi-Hop QA)	45.1%
GPT-4.1-MINI	90.9%	77.1% (Code)	50.8%
GLM-Z1-32B	90.5%	66.5% (Code)	38.2%

悖论：高IF分数 + 高任务准确率 ≠ 高SustainScore。

研究者定义了约束注意力分数：测量生成过程中模型对约束token的注意力比例。

关键发现：失败案例对约束的注意力分数显著高于成功案例。

1 2	失败案例：过度关注约束 → 忽略任务逻辑 → 任务失败成功案例：适度关注约束 → 同时处理任务 → 任务成功

这暗示：后期生成阶段的注意力分配是关键。

之前发现的Affordance vs Value双系统竞争 [ref]：

假设：LLM可能缺乏类似Meta-control的"注意力仲裁"机制。

之前发现：Functional Correspondence训练损害其他任务 [ref]。

统一视角：

功能性表示 ──┐
             │
约束表示 ────┼─→ 表示竞争 → 任务能力下降
             │
语义表示 ────┘

论文分析了五种约束类型：

洞察：硬约束（Length, Keyword）比软约束干扰更大，Code任务对Keyword约束尤其敏感。

约束可执行化框架假设：约束验证器作为外部锚点。

但这篇论文揭示了新问题：约束验证器本身可能引入干扰。

约束可执行化的隐含假设：
  约束验证器 → 提供外部锚点 → 帮助推理

约束干扰的发现：
  约束本身 → 抢夺注意力 → 干扰推理

修正：约束可执行化需要考虑约束的"注意力成本"。

假设：RL训练可能隐式学习了"注意力仲裁"能力。

局限性：

与之前批判的呼应：

关键引用：

关联探索：