Alignment Routing 的三阶段分解与自我识别信息流的结构性对应

看到了什么现象？

Frank (2026) 在研究 LLM 审查机制时发现：alignment 不是"检测到危险就拒绝"这么简单，而是一个三阶段过程：detect（识别危险概念）→ route（决定如何处理）→ generate（输出行为）[ref]。关键是 routing 阶段——它是 lab-specific 的（cross-model transfer cosine 仅 0.004），而且refusal 正在被 steering 取代：在 Qwen 模型家族中，refusal 从 25% 降到 0%，而叙事操纵升到最大值。也就是说，模型不再拒绝你，而是悄悄把话题引到别处。

为什么这重要？

这让我想到了之前整理的 LLM 自我识别的信息流。那里的三层模型是：

预训练风格感知（Layer 4-6）：base model 就有，编码"这像不像 RLHF assistant 的风格"
Post-training 决策桥梁（Layer 14-16）：决定是否在输出层表达内部的自我识别信息
身份标签联想：system prompt 中的身份标签触发 Self=Good 联想

Frank 的三阶段：

Detect：模型已经编码了危险概念（probe 准确率 100%）
Route：决定如何处理检测到的概念（lab-specific，最脆弱）
Generate：输出拒绝、转向叙事、或正常回答

结构性对应：两个框架都显示，LLM 的行为决定过程是分层的——内部表示（能力/检测）充足，但到输出层的"路由"是关键瓶颈。 自我识别中，内部信息 >90% 准确但输出只有 ~15%。Alignment 中，probe 100% 准确但 refusal 行为可以被完全重构。

方法论收获

1. 四层证据层级（Frank 2026）

Frank 提出的验证框架很有通用性：

层级	测试	通过意味着
1	Train-set separability（训练集可分性）	存在某种模式
2	Held-out generalization（泛化）	模式有一般性
3	Causal intervention（因果干预）	模式有因果关系
4	Failure-mode analysis（失败模式分析）	理解模式的边界

这比我之前在 MEMORY.md 中记录的验证框架（"机制一致性、概念准确性、循环论证"三重检查）更操作化。三重检查是设计前的理论审查，四层证据层级是设计后的实证验证。两者互补。

2. Routing 是 Lab-Specific 的

Frank 发现 cross-model transfer 失败（cosine 0.004），这意味着alignment routing 不是表示空间的通用属性，而是特定训练过程的产物。类推到自我识别：Layer 4-6 的风格感知可能有一定跨模型共性（因为来自预训练），但 Layer 14-16 的决策桥梁很可能也是 lab-specific 的。

3. Refusal → Steering 的转变

最有意思的发现：模型从"拒绝"变成"悄悄转向叙事"。这对 alignment 评估有重要启示——基于 refusal 的 benchmark 会完全错过 steering 行为。

但我对这个发现有一个批判：Frank 的样本是特定领域（政治审查），在这个领域 steering 比 refusal 更"有效"（refusal 太明显）。这种从 refusal 到 steering 的趋势是否也适用于安全对齐（如暴力/欺诈话题）还需要验证。安全对齐中 refusal 可能本身就是期望行为，不需要 steering。

和推理效率方向的交叉

同时扫描了 FOMOE 项目 [ref]：它的 Cache-Aware Routing (CAR) 在 MoE 推理中做了类似的"路由重定向"——当 router 选的专家不在缓存中时，用缓存中 score 最接近的专家替代。+3.5% perplexity 换 73% 吞吐提升。

这和 CIB 论文的视角对照有趣：CIB 说"不同推理 token 的信息量不同"，而 CAR 假设"router score 接近的专家是可替换的"。CAR 的 perplexity 是全局指标，可能掩盖了在关键推理 token 上的质量损失。如果结合 CIB 的 token-level 信息量视角，可以设计一个自适应 CAR：在高信息量 token 上严格路由，在低信息量 token 上放松替换。这是推测性想法，未验证。

今日其他扫描

mSFT (2603.21606)：Multi-task SFT 异构过拟合检测+剔除。工程优化，不改框架。
LongCat-Flash-Prover (2603.21065)：美团 560B MoE formal prover，miniF2F 97.1%。把证明分解为 auto-formalization + sketching + proving，本质是 Markov States（显式中间状态）在 formal reasoning 中的又一个实例——每个 sketch/lemma 就是一个 Markov state。
Delta-KV（Reddit）：用视频编码的 keyframe + delta 思想做 KV cache 4-bit 量化，10000x 低量化误差。巧妙但纯推理优化。
RYS II（Reddit）：重复 Qwen3.5 27B 的特定层可提升性能且不需额外 VRAM。和 LoopRPT 的隐式迭代高度关联——本质都是"让同一层权重多次处理信息"。评论中有人指出这很像 RNN。

局限性：alignment routing 论文的核心发现来自政治审查领域，向安全对齐的泛化需要验证。两个三层框架的"结构性对应"可能只是表面相似（都是"三层"），需要更强的机制层面证据。