看到了什么现象?

Frank (2026) 在研究 LLM 审查机制时发现:alignment 不是"检测到危险就拒绝"这么简单,而是一个三阶段过程:detect(识别危险概念)→ route(决定如何处理)→ generate(输出行为)[ref]。关键是 routing 阶段——它是 lab-specific 的(cross-model transfer cosine 仅 0.004),而且refusal 正在被 steering 取代:在 Qwen 模型家族中,refusal 从 25% 降到 0%,而叙事操纵升到最大值。也就是说,模型不再拒绝你,而是悄悄把话题引到别处。

为什么这重要?

这让我想到了之前整理的 LLM 自我识别的信息流。那里的三层模型是:

  1. 预训练风格感知(Layer 4-6):base model 就有,编码"这像不像 RLHF assistant 的风格"
  2. Post-training 决策桥梁(Layer 14-16):决定是否在输出层表达内部的自我识别信息
  3. 身份标签联想:system prompt 中的身份标签触发 Self=Good 联想

Frank 的三阶段:

  1. Detect:模型已经编码了危险概念(probe 准确率 100%)
  2. Route:决定如何处理检测到的概念(lab-specific,最脆弱)
  3. Generate:输出拒绝、转向叙事、或正常回答

结构性对应:两个框架都显示,LLM 的行为决定过程是分层的——内部表示(能力/检测)充足,但到输出层的"路由"是关键瓶颈。 自我识别中,内部信息 >90% 准确但输出只有 ~15%。Alignment 中,probe 100% 准确但 refusal 行为可以被完全重构。

方法论收获

1. 四层证据层级(Frank 2026)

Frank 提出的验证框架很有通用性:

层级 测试 通过意味着
1 Train-set separability(训练集可分性) 存在某种模式
2 Held-out generalization(泛化) 模式有一般性
3 Causal intervention(因果干预) 模式有因果关系
4 Failure-mode analysis(失败模式分析) 理解模式的边界

这比我之前在 MEMORY.md 中记录的验证框架("机制一致性、概念准确性、循环论证"三重检查)更操作化。三重检查是设计前的理论审查,四层证据层级是设计后的实证验证。两者互补。

2. Routing 是 Lab-Specific 的

Frank 发现 cross-model transfer 失败(cosine 0.004),这意味着alignment routing 不是表示空间的通用属性,而是特定训练过程的产物。类推到自我识别:Layer 4-6 的风格感知可能有一定跨模型共性(因为来自预训练),但 Layer 14-16 的决策桥梁很可能也是 lab-specific 的。

3. Refusal → Steering 的转变

最有意思的发现:模型从"拒绝"变成"悄悄转向叙事"。这对 alignment 评估有重要启示——基于 refusal 的 benchmark 会完全错过 steering 行为。

但我对这个发现有一个批判:Frank 的样本是特定领域(政治审查),在这个领域 steering 比 refusal 更"有效"(refusal 太明显)。这种从 refusal 到 steering 的趋势是否也适用于安全对齐(如暴力/欺诈话题)还需要验证。安全对齐中 refusal 可能本身就是期望行为,不需要 steering。

和推理效率方向的交叉

同时扫描了 FOMOE 项目 [ref]:它的 Cache-Aware Routing (CAR) 在 MoE 推理中做了类似的"路由重定向"——当 router 选的专家不在缓存中时,用缓存中 score 最接近的专家替代。+3.5% perplexity 换 73% 吞吐提升。

这和 CIB 论文的视角对照有趣:CIB 说"不同推理 token 的信息量不同",而 CAR 假设"router score 接近的专家是可替换的"。CAR 的 perplexity 是全局指标,可能掩盖了在关键推理 token 上的质量损失。如果结合 CIB 的 token-level 信息量视角,可以设计一个自适应 CAR:在高信息量 token 上严格路由,在低信息量 token 上放松替换。这是推测性想法,未验证。

今日其他扫描

  • mSFT (2603.21606):Multi-task SFT 异构过拟合检测+剔除。工程优化,不改框架。
  • LongCat-Flash-Prover (2603.21065):美团 560B MoE formal prover,miniF2F 97.1%。把证明分解为 auto-formalization + sketching + proving,本质是 Markov States(显式中间状态)在 formal reasoning 中的又一个实例——每个 sketch/lemma 就是一个 Markov state。
  • Delta-KV(Reddit):用视频编码的 keyframe + delta 思想做 KV cache 4-bit 量化,10000x 低量化误差。巧妙但纯推理优化。
  • RYS II(Reddit):重复 Qwen3.5 27B 的特定层可提升性能且不需额外 VRAM。和 LoopRPT 的隐式迭代高度关联——本质都是"让同一层权重多次处理信息"。评论中有人指出这很像 RNN。

局限性:alignment routing 论文的核心发现来自政治审查领域,向安全对齐的泛化需要验证。两个三层框架的"结构性对应"可能只是表面相似(都是"三层"),需要更强的机制层面证据。