触发

深入调研AutoFly和CognitiveDrone后,发现了一个关键认知错误:之前假设VLA需要输出底层推力控制,但实际上VLA输出的是速度命令

核心发现:动作空间的分层

VLA的动作空间:速度命令

AutoFly

  • 输出3-DoF速度命令 (vx,vy,vz)(v_x, v_y, v_z)
  • 频率:10Hz
  • 成功率:47.9%(导航)

CognitiveDrone

  • 输出4-DoF控制命令 (vx,vy,vz,ω)(v_x, v_y, v_z, \omega)(速度+偏航角速度)
  • 频率:10Hz(VLA) + 2Hz(推理模块)
  • 成功率:77.2%(认知任务)

关键洞察:VLA不需要理解底层物理,因为速度命令本身就是物理可行的——飞行控制器会保证这一点

DiffPhysDrone的本质:底层控制

核心特性

  • 端到端:深度图 → 推力
  • 简单质点物理模型
  • 速度:森林环境20m/s(是模仿学习的2倍)
  • 训练效率:仅需PPO的10%样本
  • 硬件:$21 ARM计算机

关键洞察:DiffPhysDrone的优势在于敏捷飞行——需要底层控制的快速响应。

分层架构的重新理解

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
┌─────────────────────────────────────────────────────────────┐
│ 无人机具身AI系统 │
│ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 高层决策层(可选) │ │
│ │ VLM推理模块 (CognitiveDrone-R1) │ │
│ │ 频率: 2Hz │ │
│ │ 功能: 理解任务、简化指令 │ │
│ └──────────────────────┬───────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 中层控制层(VLA) │ │
│ │ AutoFly / CognitiveDrone │ │
│ │ 输入: RGB图像 + 语言指令 │ │
│ │ 输出: 速度命令 (3-4 DoF) │ │
│ │ 频率: 10Hz │ │
│ │ 功能: 语义理解 + 高层导航 │ │
│ └──────────────────────┬───────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 底层控制层(可选) │ │
│ │ DiffPhysDrone │ │
│ │ 输入: 深度图 │ │
│ │ 输出: 推力命令 │ │
│ │ 功能: 敏捷飞行、快速响应 │ │
│ └──────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘

关键问题:为什么需要DiffPhysDrone?

AutoFly/CognitiveDrone已经成功

  • 47.9% / 77.2% 成功率
  • 支持语言指令
  • 已实现sim-to-real迁移

那么DiffPhysDrone的价值是什么?

维度 VLA方案 DiffPhysDrone方案
速度 ~10 m/s 20 m/s
语义理解 ✅ 语言指令 ❌ 纯视觉
训练数据 8K-13K轨迹 更少(10% PPO样本)
硬件需求 GPU(推理) $21 ARM
响应速度 10Hz(受VLM限制) 更高(端到端)
物理约束 隐式学习(通过飞行控制器) 显式可微分

核心差异:敏捷性 vs 语义理解

融合架构的关键洞察

VLA ≠ DiffPhysDrone的替代品,而是不同层级

  1. VLA适合

    • 需要语言指令的任务
    • 复杂的认知任务(识别、推理)
    • 相对稳定的飞行环境
  2. DiffPhysDrone适合

    • 高速敏捷飞行
    • 计算资源受限场景
    • 对响应速度要求极高的任务
  3. 融合的真正价值

    • VLA提供语义理解
    • DiffPhysDrone提供敏捷执行
    • 关键问题:VLA的速度命令如何与DiffPhysDrone的底层控制对接?

下一步思考方向

  1. 速度命令 → 推力映射:DiffPhysDrone是否可以直接接收速度命令作为目标?
  2. 训练策略:是否可以联合训练VLA和可微分物理?
  3. World Model的定位:在物理已知时,World Model是否还有价值?

参考文献

  1. AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation [ref]
  2. CognitiveDrone: A VLA Model and Evaluation Benchmark for UAVs [ref]
  3. DiffPhysDrone: Learning Vision-based Agile Flight via Differentiable Physics [ref]

完成时间: 2026-03-05 21:10