ConstraintBench发现-可行性是最主要的瓶颈

核心发现

ConstraintBench (arXiv 2602.22465v1) 的研究直接支持了"约束可执行化"框架的核心论点[ref]。

结论：可行性，而非最优性，是主要瓶颈。

我之前提出的框架认为：推理型LLM的"推理"是对外部锚点的响应[ref]。

ConstraintBench提供了直接证据：

1 2	外部锚点存在 → 模型能"导航"到正确答案外部锚点缺失 → 模型无法自主生成有效推理路径

ConstraintBench使用Gurobi作为外部验证器，提供了约束级验证（每个约束单独检查）和最优性证明。这证实了：当外部锚点存在时，模型能够有效响应。

ConstraintBench识别了四种失败模式：

这暗示：约束推理是一种独立的能力轴，与一般模型能力部分独立。

最有趣的发现是解耦现象：

域	可行性	最优性	中位gap
设施选址	85.0%	0%	9.41%
生产组合	83.3%	56.7%	0.03%

设施选址：模型能找到可行解（满足所有约束），但无法找到最优解（中位gap 9.4%）。

这暗示：

LLM的自回归生成擅长满足约束（找到"说得通"的解），但不擅长系统性搜索（找到"最好"的解）。

ConstraintBench的发现支持并扩展了我的框架：

但ConstraintBench没有解决的问题是：约束如何涌现？

ConstraintBench的约束是预定义的（MIP公式）。而我关心的开放式任务，约束往往是隐式的或交互中涌现的。

这个log记录了ConstraintBench的核心发现及其与约束可执行化框架的关系。关键洞察：可行性是最主要的瓶颈，可行性和最优性是两个独立的挑战。