残差学习的本质-学习已知模型的参数化误差模式
触发
在深入分析"物理已知时World Model的价值"问题时,发现了一个更深层的认知框架:残差学习的本质是什么?
调研发现关键论文:Physics Encoded Blocks in Residual Neural Network (PERNN) [ref],该论文明确提出:“物理系统建模可以根据数据与已知物理之间的权衡分为三种模式”。
核心发现
1. 残差学习的本质重新定义
传统理解:残差学习学习"未知动力学"
修正理解:残差学习学习**“已知模型的参数化误差模式”**
关键证据(Neural-Fly论文 [ref]):
- 学习的是"风不变表示"(物理相关,姿态、速度相关)
- 学习的是"风特定系数"(线性权重,在线更新)
- 不是学习未知的风动力学,而是学习已知物理模型的误差模式
2. PERNN框架的通用架构
论文提出了一个通用的知识-学习整合框架:
| 组件 | 功能 | 可训练性 | 对应概念 |
|---|---|---|---|
| Physics Blocks | 已知物理方程 | 不可训练 | 知识 |
| Learning Blocks | 学习未知中间变量 | 可训练 | 学习(目标) |
| Residual Blocks | 补偿物理模型不足 | 可训练 | 学习(误差) |
关键设计:残差块解决梯度流问题,提供替代梯度路径。
3. 知识边界的模糊性
论文Figure 1展示了三种模式:
- 纯知识驱动(已知物理多,数据少)
- 混合模式(部分物理已知,部分数据)
- 纯学习驱动(已知物理少,数据多)
关键洞察:知识边界是模糊的,不存在明确的分界线。
1 | 知识边界 ← → 学习目标 |
4. 实证证据
机器人运动模拟:
| 模型 | Torque MSE | 改进 |
|---|---|---|
| DeLaN | 0.2073 | - |
| PERNN | 0.00495 | 97.6% |
自动驾驶转向:
- 用5倍少的训练数据
- 用260倍少的模型参数
- 达到与FCNN-large相当的MAE
与之前发现的关系
约束可执行化 [ref]
| 约束框架 | PERNN框架 |
|---|---|
| 约束 | Physics Blocks |
| 满足约束的能力 | Learning Blocks |
| 约束违反的补偿 | Residual Blocks |
深层关联:约束可执行化问题本质上是"如何让学习模型满足知识约束"。
World Model价值 [ref]
| 物理已知程度 | World Model价值 | 推荐方案 |
|---|---|---|
| 高 | 低 | 纯物理块 |
| 中 | 中 | PERNN框架 |
| 低 | 高 | 纯学习块 |
新洞察:PERNN框架是"部分已知"场景的最优解,而"部分已知"是最常见的场景。
推测性延伸与实证验证
LLM的知识-能力分离问题
如果将PERNN框架类比到LLM:
| LLM阶段 | 类比PERNN | 对应概念 |
|---|---|---|
| 预训练 | Physics Blocks | 知识(物理、语言、数学) |
| 推理 | Learning + Residual Blocks | 应用知识的能力 |
核心问题:如果LLM已经"知道"所有知识,为什么推理还这么难?
实证验证:Decoupling Knowledge and Reasoning论文
论文 “Decoupling Knowledge and Reasoning in LLMs” (Yang et al., 2025) [ref] 提供了直接证据:
核心框架:基于双系统认知理论,将LLM推理分解为:
- 知识检索(Phase 1,Fast Thinking):快速生成初始答案
- 推理调整(Phase 2,Slow Thinking):通过CoT调整初始答案
关键发现:
| 发现 | 数据 | 洞察 |
|---|---|---|
| 推理不能弥补知识差距 | 政治/历史领域推理损害性能 | 知识差距 → 推理引入噪声而非信息增益 |
| 小模型问题 | Overthinking率高45.4%,Correction率低8.7% | 问题不是"不聪明"而是"不审慎" |
| 认知层级 | 知识在低层网络,推理在高层网络 | 与PERNN的Physics/Learning分离一致 |
数学、物理、化学受益最大(推理密集型领域):
- 数学:δ = 19.0%(平均推理增益)
- 物理:δ = 11.5%
- 化学:δ = 8.6%
政治学、历史受负面影响(知识密集型领域):
- 政治学:δ = -3.0%
- 历史:δ = -1.4%
核心解释(论文Equation 9):
其中:
- :Correction Gain(纠正错误答案)
- :Overthinking Loss(错误覆盖正确答案)
- :Correction Rate
- :Overthinking Rate
与PERNN框架的对应:
| PERNN框架 | LLM框架 |
|---|---|
| Physics Blocks(已知物理) | Knowledge Retrieval(知识检索) |
| Learning Blocks(学习未知变量) | Reasoning Adjustment(推理调整) |
| Residual Blocks(补偿物理不足) | Correction(纠正错误答案) |
新洞察:LLM的"推理能力"不是独立能力,而是"审慎地应用知识"的能力:
- Prudence:避免overthinking(不要错误覆盖正确答案)
- Intelligence:提高correction(有效纠正错误答案)
批判性反思
局限性
- 论文测试范围有限:只测试了机器人和自动驾驶两个领域
- "已知物理"的定义仍然模糊:多精确才算"已知"?
- LLM类比的实证缺失:将PERNN框架扩展到LLM是推测性的
未解决的问题
- [ ] 知识边界的量化:如何定量测量"物理已知程度"?
- [ ] LLM的约束-能力框架:LLM的推理能力是否可以形式化为"满足知识约束"?
- [ ] 残差学习的收敛性:残差模型是否会"接管"整个控制?
下一步
- 实证验证:在无人机控制中测试PERNN框架
- LLM关联:探索LLM的"知识-能力分离"问题是否可以用PERNN框架理解
- 边界量化:研究如何量化"物理已知程度"
参考文献
- Physics Encoded Blocks in Residual Neural Network [ref]
- Neural-Fly: Rapid learning for agile flight in strong winds [ref]
- Decoupling Knowledge and Reasoning in LLMs [ref]
- 物理已知时World Model的价值 [ref]
- 残差学习的边界与架构 [ref]
- 约束可执行化 [ref]
完成时间: 2026-03-05 23:15
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论