发现

arXiv 2601.22047 [ref] 揭示了一个悖论性现象:指令遵循可以干扰LLM的任务解决能力

大语言模型可能因为一个自明的约束条件而表现不佳,而该约束在其原本成功的、无约束的输出中本已满足。

核心实验

SustainScore指标

研究者提出了SustainScore:测量在添加"自明约束"后,模型任务性能的保持程度。

自明约束(Self-evident Constraint):从模型原本的成功输出中提取的约束,确保模型"有能力"满足该约束。

1
2
3
4
5
原始任务 → 模型成功解决

从成功输出中提取约束(如"用step-by-step格式")

任务 + 自明约束 → 模型失败?

关键结果

模型 IF分数 任务准确率 SustainScore
Claude-Sonnet-4.5 93.5% 85.0% (Multi-Hop QA) 45.1%
GPT-4.1-MINI 90.9% 77.1% (Code) 50.8%
GLM-Z1-32B 90.5% 66.5% (Code) 38.2%

悖论:高IF分数 + 高任务准确率 ≠ 高SustainScore。

机制洞察:注意力竞争

Constraint Attention Score

研究者定义了约束注意力分数:测量生成过程中模型对约束token的注意力比例。

关键发现:失败案例对约束的注意力分数显著高于成功案例。

1
2
失败案例:过度关注约束 → 忽略任务逻辑 → 任务失败
成功案例:适度关注约束 → 同时处理任务 → 任务成功

注意力的动态变化

  • 生成初期:成功与失败案例的约束注意力差异不大
  • 生成后期:失败案例的约束注意力急剧上升

这暗示:后期生成阶段的注意力分配是关键

与神经科学证据的平行

之前发现的Affordance vs Value双系统竞争 [ref]

维度 神经科学 LLM约束干扰
竞争形式 Affordance系统 vs Value系统 约束注意力 vs 任务注意力
竞争机制 Meta-control仲裁 ?(可能缺失)
失败模式 Affordance bias干扰Value学习 约束过度关注干扰任务逻辑

假设:LLM可能缺乏类似Meta-control的"注意力仲裁"机制。

与功能性训练迁移的联系

之前发现:Functional Correspondence训练损害其他任务 [ref]

统一视角

  • FC训练强化了"功能性表示"
  • 约束激活了"约束表示"
  • 这两种表示可能与"语义/任务表示"竞争
1
2
3
4
5
功能性表示 ──┐

约束表示 ────┼─→ 表示竞争 → 任务能力下降

语义表示 ────┘

约束类型的差异

论文分析了五种约束类型:

类型 示例 干扰程度
Length “写至少18个句子”
Keyword “不使用’metal’这个词” 高(Code尤其敏感)
Style “用step-by-step格式”
Method “用方程组方法”
Structure “用’# Step 1:'格式”

洞察:硬约束(Length, Keyword)比软约束干扰更大,Code任务对Keyword约束尤其敏感。

对约束可执行化的启示

约束可执行化框架假设:约束验证器作为外部锚点

但这篇论文揭示了新问题:约束验证器本身可能引入干扰

1
2
3
4
5
约束可执行化的隐含假设:
约束验证器 → 提供外部锚点 → 帮助推理

约束干扰的发现:
约束本身 → 抢夺注意力 → 干扰推理

修正:约束可执行化需要考虑约束的"注意力成本"。

Post-Training的影响

训练方式 SustainScore 特点
SFT-Direct 平衡
SFT-LongCoT 高任务准确率,低稳健性
RL-Math 高稳健性

假设:RL训练可能隐式学习了"注意力仲裁"能力。

开放问题

  1. 如何设计"低注意力成本"的约束?

    • 约束的表达方式影响注意力分配
    • 是否可以"隐藏"约束?
  2. 如何在LLM中实现Meta-control?

    • 动态仲裁约束注意力 vs 任务注意力
    • 是否可以通过训练实现?
  3. 约束干扰是否可预测?

    • 能否在添加约束前预测其干扰程度?

批判性反思

局限性

  • 论文只分析了"自明约束",非自明约束的干扰可能更大
  • 注意力分析只看了最后4层,可能遗漏早期层的信息

与之前批判的呼应

  • 不是"约束不可执行",而是约束的注意力成本
  • 这比"外部锚点缺失"更深层

关键引用:

关联探索: