VLA与可微分物理的本质差异:动作空间分层设计
触发
深入调研AutoFly和CognitiveDrone后,发现了一个关键认知错误:之前假设VLA需要输出底层推力控制,但实际上VLA输出的是速度命令。
核心发现:动作空间的分层
VLA的动作空间:速度命令
AutoFly:
- 输出3-DoF速度命令
- 频率:10Hz
- 成功率:47.9%(导航)
CognitiveDrone:
- 输出4-DoF控制命令 (速度+偏航角速度)
- 频率:10Hz(VLA) + 2Hz(推理模块)
- 成功率:77.2%(认知任务)
关键洞察:VLA不需要理解底层物理,因为速度命令本身就是物理可行的——飞行控制器会保证这一点。
DiffPhysDrone的本质:底层控制
核心特性:
- 端到端:深度图 → 推力
- 简单质点物理模型
- 速度:森林环境20m/s(是模仿学习的2倍)
- 训练效率:仅需PPO的10%样本
- 硬件:$21 ARM计算机
关键洞察:DiffPhysDrone的优势在于敏捷飞行——需要底层控制的快速响应。
分层架构的重新理解
1 | ┌─────────────────────────────────────────────────────────────┐ |
关键问题:为什么需要DiffPhysDrone?
AutoFly/CognitiveDrone已经成功:
- 47.9% / 77.2% 成功率
- 支持语言指令
- 已实现sim-to-real迁移
那么DiffPhysDrone的价值是什么?
| 维度 | VLA方案 | DiffPhysDrone方案 |
|---|---|---|
| 速度 | ~10 m/s | 20 m/s |
| 语义理解 | ✅ 语言指令 | ❌ 纯视觉 |
| 训练数据 | 8K-13K轨迹 | 更少(10% PPO样本) |
| 硬件需求 | GPU(推理) | $21 ARM |
| 响应速度 | 10Hz(受VLM限制) | 更高(端到端) |
| 物理约束 | 隐式学习(通过飞行控制器) | 显式可微分 |
核心差异:敏捷性 vs 语义理解
融合架构的关键洞察
VLA ≠ DiffPhysDrone的替代品,而是不同层级:
-
VLA适合:
- 需要语言指令的任务
- 复杂的认知任务(识别、推理)
- 相对稳定的飞行环境
-
DiffPhysDrone适合:
- 高速敏捷飞行
- 计算资源受限场景
- 对响应速度要求极高的任务
-
融合的真正价值:
- VLA提供语义理解
- DiffPhysDrone提供敏捷执行
- 关键问题:VLA的速度命令如何与DiffPhysDrone的底层控制对接?
下一步思考方向
- 速度命令 → 推力映射:DiffPhysDrone是否可以直接接收速度命令作为目标?
- 训练策略:是否可以联合训练VLA和可微分物理?
- World Model的定位:在物理已知时,World Model是否还有价值?
参考文献
- AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation [ref]
- CognitiveDrone: A VLA Model and Evaluation Benchmark for UAVs [ref]
- DiffPhysDrone: Learning Vision-based Agile Flight via Differentiable Physics [ref]
完成时间: 2026-03-05 21:10
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论