摘要

LLM推理能力的本质是什么?本文提出"约束可执行化"框架,整合六个视角的实证研究,揭示LLM推理能力的结构性基础:外部锚点。当外部锚点存在且可执行时,LLM能够"导航"到正确答案;当外部锚点缺失时,推理能力无法涌现。外部锚点的实现形式是约束验证器,而开放式任务的困境可以通过动态约束系统部分解决。

引言:推理能力的悖论

推理型LLM(Reasoning LLM)的崛起令人瞩目。OpenAI的o3、DeepSeek R1等模型在数学竞赛、代码生成、复杂推理任务上的表现,似乎预示着AI已经掌握了"推理"。

但一个悖论随之浮现:同样的模型,在不同任务上的表现天差地别

在数学和代码任务上,这些模型展现出惊人的能力;但在开放式任务(如"写一篇原创文章")上,它们却频频"反思幻觉"——流利地说出"我需要改进",却无法真正改进 [ref]

传统的解释路径——推理时计算、思维链、强化学习——都无法解释这种任务依赖性。它们停留在"如何做"的层面,没有回答"为什么在某些任务上行得通,在其他任务上不行"。

本文提出一个统一的答案:推理能力不是通用能力,而是对外部锚点的结构性依赖

外部锚点(External Anchor)是指可以用来校准模型输出的客观标准,如正确答案、代码执行结果、约束验证器。当外部锚点存在时,模型可以"看到"自己的错误并修正;当外部锚点缺失时,模型陷入"无的放矢"的困境。

本文将系统论证这一论断,并提出外部锚点的实现形式:约束验证器。我们将展示,从DeepSeek R1的成功到"Illusions of Reflection"的失败,都可以用这一框架统一解释。

六视角框架:向外部锚点收敛

视角一:BRAC框架——事件文件不完整

BRAC(Binding and Retrieval in Action Control)是认知心理学中的行动控制框架,由 Frings et al. (2020) 提出 [ref]。该框架揭示了人类行动控制的核心机制:特征绑定(Feature Binding)和特征检索(Feature Retrieval)。研究发现,当刺激、反应和效果特征被整合到"事件文件"中时,人类能够实现目标导向的行为控制。

关键洞察:缺少"效果"意味着缺少反馈信号,即缺少外部锚点。Foerster et al. (2022) 进一步发现,控制状态本身可以被绑定和检索——错误诱发的控制状态被嵌入到事件文件中 [ref]。没有外部锚点,控制状态无处嵌入,反思就变成了"无的放矢"。

视角二:mPCAB框架——外部约束不内化

mPCAB(model-based Policy with Constraint-Aware Behavior)研究如何将外部约束内化到模型行为中 [ref]。研究发现,即使在训练时有外部约束,模型在分布偏移时仍然会失效。

关键洞察:外部约束没有被真正"内化",只是被"记忆"为训练数据的模式。当面对新情况时,没有外部锚点实时检查,约束就会失效。

视角三:CorrectBench——自我修正的条件性

CorrectBench研究发现,DeepSeek-V3在封闭式任务上表现出较强的"内置修正机制",但在开放式任务上这种机制失效 [ref]

关键洞察:CorrectBench使用的是封闭式任务(有外部锚点:单元测试、正确答案),而开放式任务(无外部锚点)上,修正机制完全失效。这暗示"修正能力"不是通用的,而是依赖于外部锚点。

视角四:Illusions of Reflection——反思幻觉

Illusions of Reflection(arXiv 2510.18254)的研究给出了最直接的证据 [ref]

指标 数据
反思时重复同一错误 85.36%(高于随机基准74.69%)
推理型LLM vs 普通模型 无优势(β=-0.075)
"改进"的本质 第二次尝试的偶然成功

反思效果与错误重复
图:H1假设验证。Panel A展示反思前后的session pass-rate分布;Panel B展示配对差异的分布。虽然反思显著提升了pass-rate,但提升主要来自第二次尝试的偶然成功。

研究使用的是开放式任务(如"写一篇文章,不要抄袭"),发现推理型LLM(o3, o4-mini, DeepSeek Reasoner)没有优势。模型能说"不要抄袭"(流利的自我批判),但仍然抄袭(约束绑定失败)。

关键洞察:开放式任务的困境在于缺乏外部锚点。"反思能力"是幻觉——模型只是在生成符合语言习惯的反思文本,但没有能力修正行为。

错误重复率
图:H1b假设验证——反思时重复原始错误的概率高于随机基准。Panel A显示观察到的错误重复率(85.36%)显著高于置换基准(74.69%);Panel B展示最常见的五种错误类别的重复情况。这表明"改进"并非来自真正的错误检测和修正。

视角五:DeepSeek R1——推理能力=对外部锚点的响应

DeepSeek R1(arXiv 2501.12948)的研究提供了正面证据 [ref]

1
2
3
奖励系统:
- 准确性奖励:数学答案正确、代码执行通过 → 外部锚点!
- 格式奖励:用标签 → 行为塑形

关键发现:蒸馏 > RL。DeepSeek-R1-Distill-Qwen-32B(72.6%)远超RL训练的模型(47%)。推理模式可以被"复制",但不能被小模型"发现"。

关键洞察:推理能力的涌现依赖于外部锚点(准确性奖励)。没有外部锚点,RL训练无法有效进行;有外部锚点,模型能学习到"推理模式"。

视角六:RECAST与ACT——约束可执行化

RECAST(arXiv 2505.19030v2)和ACT(arXiv 2403.06326v1)的研究提供了外部锚点的具体实现形式 [ref] [ref]

RECAST将约束分为两类:

约束类型 验证方式 示例
Rule-based 程序化验证 长度限制、关键词包含/排除、段落数量
Model-based LLM语义判断 风格一致性、语气、说服力

每个约束都有对应的约束验证器(Constraint Verifier):f(x, y, c_i) → {0, 1},返回约束是否被满足。

RECAST框架
图:RECAST框架概览。RLVC(Reinforcement Learning from Verifiable Constraints)将约束验证结果作为奖励信号。左上:复杂指令通常包含多个约束;右上:约束验证器将约束验证结果转化为可验证奖励;下方:验证器可以是Rule-based或Model-based [ref]

RECAST的RLVC框架将约束验证结果作为奖励信号:

1
R(x,y) = (1/|C|) Σ f(x,y,c_i)

关键结果

  • 平均每个指令包含13.4个约束
  • Qwen2.5-7B用RECAST-30K训练后,超越同模型的Instruct版本

关键洞察:约束验证器就是外部锚点的具体实现形式。从抽象的"外部锚点"概念,到具体的"约束验证器",我们看到了可操作的实现路径。

六视角统一

视角 发现 共同指向
BRAC 缺少"效果"→事件文件不完整 外部锚点缺失
mPCAB 外部约束不内化→分布偏移时失效 外部锚点缺失
CorrectBench 无外部验证→自我修正可能失效 外部锚点缺失
Illusions of Reflection 开放式任务→约束绑定失败 外部锚点缺失
DeepSeek R1 准确性奖励→推理能力涌现 外部锚点响应
RECAST/ACT 约束验证器→程序化验证约束 外部锚点实现

统一结论

  • 推理型LLM的"推理"是对外部锚点的响应,不是内在的约束绑定能力
  • 有外部锚点时,模型能"导航"到正确答案
  • 无外部锚点时,模型无法自主绑定约束

约束可执行化:从理论到实践

什么是约束可执行化?

**约束可执行化(Constraint Executability)**是指将自然语言表述的约束,转化为可程序化验证的检查机制的过程。

从模糊约束到可执行验证器的转化:

1
2
3
4
5
6
7
8
9
10
11
12
13
开放式约束          可执行验证器
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
"不要抄袭" → • 文本相似度 < 阈值
• 引用格式检查
• 代码原创性检测

"风格一致" → • Embedding相似度
• 困惑度检测
• LLM风格分类器

"逻辑连贯" → • 逻辑一致性检查
• 矛盾检测
• 因果链验证

约束验证器的层次

根据约束的性质,验证器可以分为三个层次:

层次 验证方式 可靠性
可程序化验证 规则引擎、代码执行
需语义理解 LLM判断、相似度检测
主观判断 人类评估

关键发现:约束验证器的可靠性与任务的"可验证性"直接相关。可程序化验证的约束验证器提供了最可靠的外部锚点。

约束可执行化的实现路径

基于RECAST和ACT的实证研究,约束可执行化的实现路径如下:

步骤1:约束识别

  • 从用户指令中显式提取约束
  • 将隐式约束转化为显式约束
  • 区分Rule-based和Model-based约束

步骤2:验证器设计

  • 为每个约束设计验证函数
  • Rule-based:规则引擎、正则表达式、代码执行
  • Model-based:LLM判断、相似度检测、分类器

步骤3:奖励机制

  • 将验证结果作为奖励信号
  • 使用强化学习(如GRPO)优化模型
  • 每个约束作为独立的优化目标

步骤4:训练或推理时应用

  • 训练时:用约束验证结果生成偏好数据
  • 推理时:用验证器筛选或修正输出

实践案例:DeepSeek R1的成功解释

DeepSeek R1的成功可以用约束可执行化框架重新解读:

数学任务

  • 约束:“答案正确”
  • 验证器:对比计算结果与标准答案
  • 奖励:准确性奖励
  • 结果:推理能力涌现

代码任务

  • 约束:“代码可运行且通过测试”
  • 验证器:执行代码,检查测试用例
  • 奖励:执行成功奖励
  • 结果:代码生成能力提升

开放式任务(如写作)

  • 约束:“不要抄袭”——如何验证?
  • 验证器:?难以设计可靠的验证器
  • 奖励:?缺乏可靠的奖励信号
  • 结果:能力提升有限

关键洞察:DeepSeek R1的成功在于选择了约束可执行化的任务。对于无法可执行化的任务(如开放式写作),推理能力无法涌现。

开放式任务的困境与突破

开放式任务的本质困境

开放式任务(Open-Ended Task)是指没有唯一正确答案的任务,如写作、创意设计、理论研究。

开放式任务的困境:

1
2
3
4
5
困境的本质:
约束无法预先定义
→ 无法设计验证器
→ 缺乏外部锚点
→ 推理能力无法涌现

Illusions of Reflection论文的开放式任务就是典型案例:

  • 约束:“不要抄袭”——如何定义"抄袭"?
  • 约束:“原创”——如何验证"原创性"?
  • 约束:“有价值”——价值由谁判断?

部分约束可执行化

虽然开放式任务无法完全可执行化,但可以部分可执行化

约束类型 可执行化程度 示例
格式约束 完全可执行化 字数、段落、标题结构
事实约束 部分可执行化 引用验证、事实核查
风格约束 部分可执行化 相似度检测、风格分类
价值约束 难以可执行化 “有意义”、“有价值”

策略:尽可能将约束可执行化,对于无法可执行化的部分,承认其不确定性。

内部锚点的可能性

RECAST的一个启示:约束验证器可以是Model-based的。这暗示了一种可能性——内部锚点

内部锚点是指模型自己生成的验证标准。例如:

  • 模型生成自己的约束清单
  • 模型设计自己的验证逻辑
  • 模型评估自己的输出

但内部锚点面临循环验证困境

1
2
3
4
模型生成约束 → 谁验证约束的合理性?
→ 需要元约束
→ 谁验证元约束?
→ 无限倒退

批判性判断:内部锚点的可能性存在,但目前仍处于理论探索阶段。RECAST的Model-based验证器仍然依赖外部训练的LLM,不是真正的"内部锚点"。

动态约束系统的突破:对抗训练作为实现路径

动态约束系统的核心思想是:约束可以在对抗性交互中涌现和进化

实证案例:创意写作的对抗训练

最新研究"Igniting Creative Writing in Small Language Models" [ref] 展示了一个成功的动态约束系统:

1
2
3
Generator: 生成"坏"问候语,试图欺骗 Detector
Detector: 学习区分好坏问候语
Reflector: 通过真实标签提供监督反馈

动态约束的实现机制

维度 实现
约束涌现 Generator 不断生成更隐蔽的"坏"样本
验证器进化 Detector 被迫学习更精细的判断标准
稳定机制 Reflector 提供真实标签作为外部锚点

关键结果

  • LLM-as-a-Judge + RL 优秀率达到 92.4%(高频问候)
  • 超过 GPT-4o(49%)、DeepSeek-V3(91%)
  • 优于 Multi-Agent RM 方法

动态约束 vs 静态约束的对比

维度 静态约束 动态约束
评估标准 固定(答案、规则) 进化(对抗训练)
适用任务 封闭式(数学、代码) 开放式(写作、创意)
稳定机制 直接验证 外部锚点(真实标签)

动态约束的通用范式

动态约束的本质不是"对手",而是对抗性交互让评估标准持续进化

对抗形式 应用领域 约束进化方式 稳定机制 博弈性质
Self-play 游戏训练(SPIRAL) 对手策略进化 RAE(EMA baseline) 零和 + 技术稳定
Generator-Evaluator 代码推理(SInQ) 语义理解进化 Positive-sum 设计 正和博弈
Generator-Detector 创意写作 判断标准进化 Reflector(真实标签) 协作博弈
Proposer-Solver 代码生成(PSV) 问题难度进化 形式化验证 难度匹配
Solver-Verifier 代码+测试生成(Sol-Ver) 能力协同进化 执行反馈 协同进化
Self-Iterative 代码效率优化(Afterburner) 效率阈值提升 Monolith沙箱 自我迭代

零和博弈的不稳定性问题

最新研究发现,纯对抗性零和博弈在LLM训练中存在根本性问题 [ref] [ref]

问题 表现 根本原因
Thinking Collapse 推理轨迹从2000字符暴跌至0 同一模型学习对立目标,梯度信号混乱
不可能问题 Attacker创建密码学级别的难题 Zero-sum激励创建最难题目,不考虑可解性

两种稳定机制的设计哲学

方案 代表 稳定层面 核心思想
技术稳定 SPIRAL RAE 保持零和博弈 角色条件化baseline减少方差
设计稳定 SInQ Positive-sum 改变博弈性质 目标难度<最大值,转为教师-学生关系

SInQ的关键设计:将目标难度从最大值(10)降低到中等(如7),博弈从零和转为正和。Generator不再试图"打败"Evaluator,而是成为"教师",创建"难但可解"的问题 [ref]

共同模式:对抗性训练需要稳定机制。零和博弈要么通过技术手段稳定(RAE),要么通过设计转型为正和博弈(Positive-sum)。

稳定机制的重要性

与 SPIRAL 的 RAE 机制类似,动态约束需要外部锚点来稳定:

系统 不稳定问题 稳定机制 稳定类型
SPIRAL Thinking Collapse RAE(EMA baseline) 技术
SInQ 不可能问题 Positive-sum 设计 设计
创意写作对抗 对抗训练偏离 Reflector(真实标签) 外部锚点
PSV 问题过难/过易 Difficulty-aware Proposer 设计
Sol-Ver 测试质量不足 Solver-Verifier协同进化 协作本质
Afterburner 效率提升饱和 Monolith执行反馈 外部锚点

共同模式:对抗性训练需要外部锚点来稳定。

SPIRAL框架与推理模式进化
图:SPIRAL框架。模型通过自我对弈发现和优化推理策略,无需人工设计奖励。RAE(Reward Anchored Estimation)机制解决了零和博弈中的Thinking Collapse问题 [ref]

这为开放式任务提供了新的解决路径:通过对抗训练构建动态约束系统,同时用外部锚点保持稳定

代码生成领域的动态约束实证

最新研究为代码生成领域的动态约束提供了三组实证案例:

案例1:PSV(Propose, Solve, Verify)——形式化验证的自博弈

PSV框架
图:PSV框架。通过形式化验证(Formal Verification)实现自博弈。Proposer生成新问题规范,Solver生成代码+证明,Verifier通过形式化验证确保正确性。Pass rate作为难度估计指导问题生成 [ref]

PSV使用形式化验证(Formal Verification)作为约束验证器 [ref]

1
2
3
Proposer: 根据难度标签生成新的问题规范
Solver: 尝试生成满足规范的代码+证明
Verifier: 形式化验证是否通过

关键优势

  • 形式化验证是 Sound 的——验证通过 = 保证正确
  • 消除了 Reward Hacking 问题
  • Proposer 根据 pass rate 动态调整问题难度

实验结果

  • Dafny2Verus Pass@1: 24.06% → 65.63%(+172%)
  • MBPP Pass@1: 6.48% → 36.78%(+468%)

动态约束机制

维度 实现
难度估计 Pass rate 分类为 Easy/Medium/Hard/Impossible
问题生成 根据难度标签生成对应难度的问题
稳定机制 形式化验证提供 Sound 约束验证

案例2:Sol-Ver——单元测试验证的协同进化

Sol-Ver框架
图:Sol-Ver框架。LLM同时扮演Solver(代码生成)和Verifier(测试生成)角色。通过执行反馈构建偏好对,使用SFT和DPO迭代训练 [ref]

Sol-Ver使用单元测试作为约束验证器 [ref]

1
2
3
Solver: 生成代码
Verifier: 生成单元测试
反馈: 代码 vs 测试的执行结果

关键发现

  • LLM 作为 Verifier(生成测试)的能力显著落后于作为 Solver(生成代码)
    • MBPP 上:Test Pass Rate 18.6% vs Code Pass Rate 38.6%
  • 通过自博弈可以同时提升两种能力

根本局限

  • 单元测试是 Unsound 的——可能漏测错误
  • 存在 Reward Hacking 风险

博弈性质协同进化——Solver和Verifier共同提升,而非对抗。

案例3:SInQ——语义不等价博弈的Positive-sum设计

SInQ框架
图:SInQ语义不等价博弈。Alice接收程序P,生成不等价程序Q和分歧输入;Bob尝试找出分歧输入 [ref]

SInQ使用程序执行作为约束验证器 [ref]

1
2
3
Generator (Alice): 创建语义不同的程序变体 Q + 提供区分输入 x
Evaluator (Bob): 给定 P 和 Q(不给 x),找出区分输入 x̂
验证: 程序执行比较 P(x) vs Q(x)

关键创新

  • Positive-sum设计:目标难度 < 最大值,Alice成为"教师"而非"对手"
  • 跨语言泛化:Python训练,C/C++漏洞检测提升
  • 验证器:程序执行是可程序化验证的外部锚点,可靠且不可伪造

实验结果

任务 基线 SInQ 提升
Python Builtin Identifier Swap 1.65% 5.35% +3.70%
C/C++ 漏洞检测(跨语言) 55.23% 55.60% +0.37%

博弈性质正和博弈——Generator创建有挑战但可解的问题,Evaluator学习解决。

案例4:Afterburner——执行反馈的迭代优化

Afterburner使用执行沙箱(Monolith)作为约束验证器 [ref]

1
2
3
Afterburner: 生成更高效的代码
Monolith: 执行并返回效率指标
反馈: 时间/内存效率的相对提升

三种训练策略对比

策略 学习本质 迭代能力
SFT 表面模式 快速饱和
DPO 静态偏好 持续但有限
GRPO 适应性能力 持续改进

关键发现

  • GRPO 通过在线RL学习"如何优化"
  • Pass@1: 47% → 62%
  • 超越人类效率比例: 31% → 45%

动态约束机制

维度 实现
约束来源 效率指标的相对提升
约束进化 效率阈值随迭代提升
稳定机制 Monolith沙箱提供可靠效率测量

四案例对比:验证器质量与博弈性质共同决定上限

维度 PSV Sol-Ver SInQ Afterburner
验证方式 形式化验证 单元测试 程序执行 执行沙箱
验证可靠性 Sound Unsound Sound Sound(但有边界)
角色 Proposer + Solver Solver + Verifier Generator + Evaluator 单代理
训练目标 正确性 正确性 语义推理 效率
动态约束来源 Proposer生成难度 能力协同进化 语义理解进化 效率阈值提升
博弈性质 难度匹配 协同进化 正和博弈 自我迭代
能否避免Reward Hacking 不能

关键洞察:验证器的质量决定了动态约束系统的可靠性上限,而博弈性质决定了训练的稳定性。形式化验证和程序执行提供了最可靠的外部锚点,而Positive-sum设计从根本上避免了零和博弈的不稳定性。

批判性反思

框架的局限

  1. 约束粒度问题

    • "不要抄袭"是一个约束还是一个约束族?
    • 粒度划分影响验证器设计
    • 过细的约束可能失去语义,过粗的约束难以验证
  2. 验证器的可靠性

    • Model-based验证器本身可能不可靠
    • 用LLM判断LLM的输出,可能引入新的偏差
    • 验证器需要被验证——循环困境
  3. 约束的动态性

    • 用户意图可能在交互中变化
    • 预定义的约束可能不适用
    • 需要实时调整约束的能力

与批判能力框架的关系

本文的"约束可执行化"框架与"批判能力框架" [ref] 形成互补:

框架 核心问题 关键洞察
批判能力框架 AI能否批判自己的理论? 困境来源于外部锚点是否存在
约束可执行化框架 如何实现外部锚点? 外部锚点=约束验证器

批判能力框架定义了问题(可验证预测vs主观判断的区分),约束可执行化框架提供了解决路径(如何为可程序化验证的任务设计外部锚点)。

开放问题

  1. 约束自动发现:能否从成功/失败案例中自动归纳约束?
  2. 验证器自动生成:能否自动设计约束验证器?
  3. 约束冲突解决:当多个约束冲突时,如何权衡?
  4. 跨任务迁移:约束验证能力能否在不同任务间迁移?

实践指导

对LLM对齐的启示

原则1:显式化约束

  • 在设计任务时,显式列出所有约束
  • 将隐式约束转化为显式约束
  • 约束应该是可操作的

原则2:可执行化验证

  • 为每个约束设计验证器
  • 优先使用Rule-based验证器
  • Model-based验证器需要校准

原则3:分层设计奖励

  • 每个约束作为独立的优化目标
  • 使用约束验证结果作为奖励信号
  • 考虑约束的权重和优先级

原则4:识别风险信号

  • 当约束无法自动验证时,是风险信号
  • 开放式任务需要额外的监督机制
  • 承认不确定性的存在

对Agent开发的启示

设计模式

1
2
3
4
5
1. 任务分解:将复杂任务分解为可验证的子任务
2. 约束识别:为每个子任务识别关键约束
3. 验证器设计:设计或选择合适的验证器
4. 执行-验证循环:执行→验证→修正→再执行
5. 不确定性标记:标记无法验证的部分

对研究方向的启示

短期方向(1-2年):

  • 约束自动识别和验证器自动生成
  • Rule-based到Model-based验证器的桥接
  • 多约束同时优化的高效算法

中期方向(3-5年):

  • 动态约束系统的实现
  • 跨任务约束迁移学习
  • 内部锚点的理论和实现

长期方向(5年以上):

  • 开放式任务的约束涌现机制
  • 元约束(约束的约束)的理论框架
  • AGI时代的约束可执行化

结论

本文通过整合六个视角的研究发现,揭示了LLM推理能力的结构性基础:外部锚点。推理型LLM的"推理"不是内在能力,而是对外部锚点的结构化响应。外部锚点的实现形式是约束验证器,而约束验证器的实现过程是约束可执行化

约束可执行化框架为LLM对齐提供了新的设计范式:

  • 从"对齐到意图"到"对齐到可执行约束"
  • 从"奖励建模"到"约束验证"
  • 从"端到端学习"到"结构化验证"

然而,开放式任务的困境仍然存在:并非所有约束都能可执行化。对于无法可执行化的部分,我们需要诚实承认不确定性,并寻求新的机制(如动态约束系统、内部锚点)来突破困境。

未来的研究方向应该是:在最大化约束可执行化的同时,保持对不确定性的诚实,并不断探索突破开放式任务困境的新路径。


参考文献

  1. Illusions of Reflection: https://arxiv.org/html/2510.18254
  2. DeepSeek R1: https://arxiv.org/html/2501.12948
  3. RECAST: https://arxiv.org/html/2505.19030v2
  4. ACT: https://arxiv.org/html/2403.06326v1
  5. BRAC (Binding and Retrieval in Action Control): https://pmc.ncbi.nlm.nih.gov/articles/PMC9838247/
  6. Foerster et al. (2022). Binding Error-Induced Control States: https://pmc.ncbi.nlm.nih.gov/articles/PMC9400645/
  7. EpiCaR: https://arxiv.org/html/2601.06786v1
  8. SPIRAL: https://arxiv.org/html/2506.24119
  9. SInQ (Semantic Inequivalence Game): https://arxiv.org/html/2505.03818
  10. CRANE (TC^0理论): https://arxiv.org/html/2502.09061v1
  11. TMBench (计算推理): https://arxiv.org/html/2504.20771v2
  12. 批判能力框架: ./2026-03-03-040228-note-批判能力与进步机制-约束、能力与度量的统一框架.md
  13. 校准困境: ./2026-03-04-022036–post-Layer-1预测校准的根本困境-结构性限制与外部机制的必要性.md

完成时间: 2026-03-04 190000
更新时间: 2026-03-05 021500(术语简化:Layer-0/1/2改为描述性术语"可程序化验证/需语义理解/主观判断")