残差学习的本质-学习已知模型的参数化误差模式

触发

在深入分析"物理已知时World Model的价值"问题时，发现了一个更深层的认知框架：残差学习的本质是什么？

调研发现关键论文：Physics Encoded Blocks in Residual Neural Network (PERNN) [ref]，该论文明确提出：“物理系统建模可以根据数据与已知物理之间的权衡分为三种模式”。

核心发现

1. 残差学习的本质重新定义

传统理解：残差学习学习"未知动力学"

修正理解：残差学习学习**“已知模型的参数化误差模式”**

关键证据（Neural-Fly论文 [ref]）：

学习的是"风不变表示"（物理相关，姿态、速度相关）
学习的是"风特定系数"（线性权重，在线更新）
不是学习未知的风动力学，而是学习已知物理模型的误差模式

2. PERNN框架的通用架构

论文提出了一个通用的知识-学习整合框架：

组件	功能	可训练性	对应概念
Physics Blocks	已知物理方程	不可训练	知识
Learning Blocks	学习未知中间变量	可训练	学习（目标）
Residual Blocks	补偿物理模型不足	可训练	学习（误差）

关键设计：残差块解决梯度流问题，提供替代梯度路径。

3. 知识边界的模糊性

论文Figure 1展示了三种模式：

纯知识驱动（已知物理多，数据少）
混合模式（部分物理已知，部分数据）
纯学习驱动（已知物理少，数据多）

关键洞察：知识边界是模糊的，不存在明确的分界线。

知识边界 ← → 学习目标
    ↓          ↓
 知道什么    学什么
    ↓          ↓
 物理块      学习块 + 残差块

4. 实证证据

机器人运动模拟：

模型	Torque MSE	改进
DeLaN	0.2073	-
PERNN	0.00495	97.6%

自动驾驶转向：

用5倍少的训练数据
用260倍少的模型参数
达到与FCNN-large相当的MAE

与之前发现的关系

约束可执行化 [ref]

约束框架	PERNN框架
约束	Physics Blocks
满足约束的能力	Learning Blocks
约束违反的补偿	Residual Blocks

深层关联：约束可执行化问题本质上是"如何让学习模型满足知识约束"。

World Model价值 [ref]

物理已知程度	World Model价值	推荐方案
高	低	纯物理块
中	中	PERNN框架
低	高	纯学习块

新洞察：PERNN框架是"部分已知"场景的最优解，而"部分已知"是最常见的场景。

推测性延伸与实证验证

LLM的知识-能力分离问题

如果将PERNN框架类比到LLM：

LLM阶段	类比PERNN	对应概念
预训练	Physics Blocks	知识（物理、语言、数学）
推理	Learning + Residual Blocks	应用知识的能力

核心问题：如果LLM已经"知道"所有知识，为什么推理还这么难？

实证验证：Decoupling Knowledge and Reasoning论文

论文 “Decoupling Knowledge and Reasoning in LLMs” (Yang et al., 2025) [ref] 提供了直接证据：

核心框架：基于双系统认知理论，将LLM推理分解为：

知识检索（Phase 1，Fast Thinking）：快速生成初始答案
推理调整（Phase 2，Slow Thinking）：通过CoT调整初始答案

关键发现：

发现	数据	洞察
推理不能弥补知识差距	政治/历史领域推理损害性能	知识差距 → 推理引入噪声而非信息增益
小模型问题	Overthinking率高45.4%，Correction率低8.7%	问题不是"不聪明"而是"不审慎"
认知层级	知识在低层网络，推理在高层网络	与PERNN的Physics/Learning分离一致

数学、物理、化学受益最大（推理密集型领域）：

数学：δ = 19.0%（平均推理增益）
物理：δ = 11.5%
化学：δ = 8.6%

政治学、历史受负面影响（知识密集型领域）：

政治学：δ = -3.0%
历史：δ = -1.4%

核心解释（论文Equation 9）：

$\delta = \delta_c - \delta_o = r_c \cdot |D_{false}| - r_o \cdot |D_{true}|$

其中：

$\delta_c$ ：Correction Gain（纠正错误答案）
$\delta_o$ ：Overthinking Loss（错误覆盖正确答案）
$r_c$ ：Correction Rate
$r_o$ ：Overthinking Rate

与PERNN框架的对应：

PERNN框架	LLM框架
Physics Blocks（已知物理）	Knowledge Retrieval（知识检索）
Learning Blocks（学习未知变量）	Reasoning Adjustment（推理调整）
Residual Blocks（补偿物理不足）	Correction（纠正错误答案）

新洞察：LLM的"推理能力"不是独立能力，而是"审慎地应用知识"的能力：

Prudence：避免overthinking（不要错误覆盖正确答案）
Intelligence：提高correction（有效纠正错误答案）

批判性反思

局限性

论文测试范围有限：只测试了机器人和自动驾驶两个领域
"已知物理"的定义仍然模糊：多精确才算"已知"？
LLM类比的实证缺失：将PERNN框架扩展到LLM是推测性的

未解决的问题

[ ] 知识边界的量化：如何定量测量"物理已知程度"？
[ ] LLM的约束-能力框架：LLM的推理能力是否可以形式化为"满足知识约束"？
[ ] 残差学习的收敛性：残差模型是否会"接管"整个控制？

下一步

实证验证：在无人机控制中测试PERNN框架
LLM关联：探索LLM的"知识-能力分离"问题是否可以用PERNN框架理解
边界量化：研究如何量化"物理已知程度"

参考文献

Physics Encoded Blocks in Residual Neural Network [ref]
Neural-Fly: Rapid learning for agile flight in strong winds [ref]
Decoupling Knowledge and Reasoning in LLMs [ref]
物理已知时World Model的价值 [ref]
残差学习的边界与架构 [ref]
约束可执行化 [ref]

完成时间: 2026-03-05 23:15