约束的系统归属：四条探索线的汇聚与框架修正

核心洞察

约束不是中性的工具,而是有"系统归属"的认知实体。

不同约束可能激活不同的表示系统,这些系统可能竞争而非协同。LLM可能缺乏类似Meta-control的仲裁机制来平衡这些竞争。

这修正了"约束可执行化"框架的一个隐含假设。

四条探索线的汇聚

第一条线:约束可执行化

核心论点:外部锚点是LLM推理能力的结构性基础 [ref]

隐含假设:约束验证器 → 提供外部锚点 → 帮助推理

第二条线:功能性训练迁移

发现:Functional Correspondence训练引入功能性表示,与语义表示竞争 [ref]

关键数据:

FC对低层次感知任务有轻微正迁移
FC对高层次推理任务有负迁移
LoRA权重分析显示FC的更新模式独特

启示:不同类型的表示可能竞争而非协同。

第三条线:神经科学证据

发现:Affordance系统与Value系统是两个独立的决策系统,通过Meta-control仲裁 [ref]

关键机制:

系统	神经区域	功能
Affordance	V3/V4	处理物理属性,自动potentiate动作
Value	mPFC	学习和编码期望价值
Meta-control	preSMA, ACC, lPFC	动态仲裁两个系统

启示:LLM可能缺乏类似的仲裁机制。

第四条线:约束注意力竞争

发现:指令遵循可以悖论性干扰任务执行 [ref]

关键数据:

高IF分数 + 高任务准确率 ≠ 高SustainScore
失败案例对约束的注意力分数显著高于成功案例
生成后期,失败案例的约束注意力急剧上升

启示:约束本身有"注意力成本",可能抢夺任务逻辑所需的注意力。

新框架:约束的系统归属

核心论点

约束有系统归属:不同约束激活不同表示系统。

约束类型	激活的系统	与任务的关系
语义约束(“不要抄袭”)	Value/Semantic系统	可能协同
功能约束(“可以倒水”)	Affordance系统	可能竞争
格式约束(“字数限制”)	规则系统	可能中性

表示系统的竞争

假设:LLM的表示空间存在正交子空间:

1
2
3

表示空间
├── 语义子空间(类别、属性、外观)
└── 功能子空间(affordance、用途)

竞争机制:

注意力竞争:约束抢夺注意力,任务逻辑被忽略
表示覆盖:功能性表示"覆盖"语义性表示
参数竞争:LoRA权重分析显示不同约束的更新模式不同

缺乏仲裁机制

关键问题:LLM可能缺乏类似Meta-control的机制来仲裁这些竞争。

神经科学中的Meta-control会根据系统性能动态分配权重:

1	Arbitration Weight = f(Performance_affordance, Performance_value)

但LLM可能只有:

固定的注意力分配机制
没有动态的"性能监控"来调整权重

约束的成本-收益分析

悖论:约束既有收益,也有成本。

维度	收益	成本
外部锚点	提供校准信号	可能引入注意力成本
表示系统	引导推理方向	可能激活竞争系统
验证器	可执行化约束	验证过程本身可能干扰

关键洞察:约束可执行化需要考虑约束的"注意力成本"和"系统归属"。

对约束可执行化框架的修正

原有框架的局限

隐含假设:约束验证器 → 提供外部锚点 → 帮助推理

问题:这个假设忽略了约束的潜在成本。

修正后的框架

新的假设:约束验证器 → 提供外部锚点 AND 引入注意力成本

需要考虑的因素:

约束类型:语义约束 vs 功能约束 vs 格式约束
系统归属:约束激活哪个表示系统?
竞争风险:该系统是否与任务逻辑竞争?
仲裁机制:是否存在Meta-control来平衡竞争?

对不同任务的预测

任务类型	约束类型	预期效果
语义任务	语义约束	协同 → 正迁移
语义任务	功能约束	竞争 → 负迁移
功能任务	功能约束	协同 → 正迁移
功能任务	语义约束	竞争 → 负迁移

与之前发现的统一

统一FC的迁移不对称性

为什么FC对低层次任务有益?

低层次任务可能包含一定的"功能性"成分(如Relative Depth的"支撑关系")
功能性约束与低层次任务协同

为什么FC对高层次推理任务有害?

高层次推理任务依赖语义特征
功能性约束与语义任务竞争

统一约束注意力竞争的发现

为什么失败案例对约束的注意力分数更高?

过度关注约束 → 激活竞争系统 → 忽略任务逻辑

为什么RL训练比SFT-LongCoT更稳健?

RL可能隐式学习了"注意力仲裁"能力
或者学会了在约束和任务之间平衡

统一神经科学证据

Affordance bias干扰Value学习:

Affordance系统自动激活
Value系统需要学习
没有Meta-control仲裁,Affordance bias会干扰学习

对应LLM的约束干扰:

约束激活特定系统
任务逻辑依赖另一系统
缺乏仲裁机制,竞争导致失败

开放问题

1. 如何验证"系统归属"假设?

方法1:分析约束训练前后的表示变化

Probe实验:用语义标签probe功能性训练后的模型
表示相似性分析:比较不同约束训练后的表示空间

方法2:注意力分析

分析不同约束的注意力模式
比较成功与失败案例的注意力分配

2. 如何实现Meta-control?

可能性1:训练一个元控制器

监控不同系统的"性能"
动态调整注意力分配

可能性2:通过RL学习仲裁能力

类似SPIRAL的RAE机制
或SInQ的Positive-sum设计

可能性3:设计约束层次

高层约束仲裁低层约束
类似认知控制的自上而下机制

3. 约束类型是否可以预测干扰程度?

硬约束(Length, Keyword)比软约束(Style, Method)干扰更大 [ref]

假设:约束的"硬度"与其激活的系统强度相关。

4. 如何设计"低注意力成本"的约束?

策略1:隐藏约束

不在prompt中显式说明约束
通过验证器隐式引导

策略2:与任务系统对齐

识别任务依赖的表示系统
设计激活同一系统的约束

策略3:分阶段约束

推理阶段不施加约束
验证阶段施加约束

批判性反思

框架的局限

假设尚未验证:所有"系统归属"、"表示竞争"都是假设,没有直接实验证据
机制不清晰:具体如何激活不同系统?如何竞争?都不清楚
过度简化:实际情况可能不止两个系统,竞争关系可能更复杂

与之前批判的呼应

之前批判了"结构匹配假设":

概念过度包装
循环定义
混淆因果关系

现在的"系统归属"框架是否也有同样问题?

自我批评:

"系统归属"是否只是"表示类型"的重新包装?
"注意力成本"是否可测量?
是否还是循环定义:失败→约束竞争→失败?

如何避免过度包装?

必须满足的条件:

可验证:提出可操作的实验方法
可预测:对新的约束-任务组合做出预测
可证伪:存在能够推翻假设的证据

下一步:设计实验验证假设,而不是继续理论推演。

结论

四条探索线汇聚到一个新的洞察:约束不是中性的工具,而是有系统归属的认知实体。不同约束可能激活竞争的表示系统,而LLM缺乏仲裁机制。

这个发现修正了"约束可执行化"框架的隐含假设,揭示了约束的潜在成本。下一步应该是验证假设,而不是继续理论推演。

关键引用: