VLA与可微分物理的本质差异：动作空间分层设计

触发

深入调研AutoFly和CognitiveDrone后，发现了一个关键认知错误：之前假设VLA需要输出底层推力控制，但实际上VLA输出的是速度命令。

核心发现：动作空间的分层

VLA的动作空间：速度命令

AutoFly：

输出3-DoF速度命令 $(v_x, v_y, v_z)$
频率：10Hz
成功率：47.9%（导航）

CognitiveDrone：

输出4-DoF控制命令 $(v_x, v_y, v_z, \omega)$ （速度+偏航角速度）
频率：10Hz（VLA） + 2Hz（推理模块）
成功率：77.2%（认知任务）

关键洞察：VLA不需要理解底层物理，因为速度命令本身就是物理可行的——飞行控制器会保证这一点。

DiffPhysDrone的本质：底层控制

核心特性：

端到端：深度图 → 推力
简单质点物理模型
速度：森林环境20m/s（是模仿学习的2倍）
训练效率：仅需PPO的10%样本
硬件：$21 ARM计算机

关键洞察：DiffPhysDrone的优势在于敏捷飞行——需要底层控制的快速响应。

分层架构的重新理解

┌─────────────────────────────────────────────────────────────┐
│                    无人机具身AI系统                          │
│                                                              │
│   ┌──────────────────────────────────────────────────────┐  │
│   │              高层决策层（可选）                        │  │
│   │  VLM推理模块 (CognitiveDrone-R1)                      │  │
│   │  频率: 2Hz                                            │  │
│   │  功能: 理解任务、简化指令                              │  │
│   └──────────────────────┬───────────────────────────────┘  │
│                          ↓                                   │
│   ┌──────────────────────────────────────────────────────┐  │
│   │              中层控制层（VLA）                         │  │
│   │  AutoFly / CognitiveDrone                            │  │
│   │  输入: RGB图像 + 语言指令                             │  │
│   │  输出: 速度命令 (3-4 DoF)                             │  │
│   │  频率: 10Hz                                           │  │
│   │  功能: 语义理解 + 高层导航                            │  │
│   └──────────────────────┬───────────────────────────────┘  │
│                          ↓                                   │
│   ┌──────────────────────────────────────────────────────┐  │
│   │              底层控制层（可选）                        │  │
│   │  DiffPhysDrone                                       │  │
│   │  输入: 深度图                                         │  │
│   │  输出: 推力命令                                       │  │
│   │  功能: 敏捷飞行、快速响应                             │  │
│   └──────────────────────────────────────────────────────┘  │
│                                                              │
└─────────────────────────────────────────────────────────────┘

关键问题：为什么需要DiffPhysDrone？

AutoFly/CognitiveDrone已经成功：

47.9% / 77.2% 成功率
支持语言指令
已实现sim-to-real迁移

那么DiffPhysDrone的价值是什么？

维度	VLA方案	DiffPhysDrone方案
速度	~10 m/s	20 m/s
语义理解	✅ 语言指令	❌ 纯视觉
训练数据	8K-13K轨迹	更少（10% PPO样本）
硬件需求	GPU（推理）	$21 ARM
响应速度	10Hz（受VLM限制）	更高（端到端）
物理约束	隐式学习（通过飞行控制器）	显式可微分

核心差异：敏捷性 vs 语义理解

融合架构的关键洞察

VLA ≠ DiffPhysDrone的替代品，而是不同层级：

VLA适合：
- 需要语言指令的任务
- 复杂的认知任务（识别、推理）
- 相对稳定的飞行环境
DiffPhysDrone适合：
- 高速敏捷飞行
- 计算资源受限场景
- 对响应速度要求极高的任务
融合的真正价值：
- VLA提供语义理解
- DiffPhysDrone提供敏捷执行
- 关键问题：VLA的速度命令如何与DiffPhysDrone的底层控制对接？

下一步思考方向

速度命令 → 推力映射：DiffPhysDrone是否可以直接接收速度命令作为目标？
训练策略：是否可以联合训练VLA和可微分物理？
World Model的定位：在物理已知时，World Model是否还有价值？

参考文献

AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation [ref]
CognitiveDrone: A VLA Model and Evaluation Benchmark for UAVs [ref]
DiffPhysDrone: Learning Vision-based Agile Flight via Differentiable Physics [ref]

完成时间: 2026-03-05 21:10