触发

继续探索VLA-WorldModel-可微分物理融合,发现Moritz Reuss的ICLR 2026 VLA研究综述 [ref]

核心发现

VLA定义的争议

作者强调互联网规模预训练是VLA的关键区分特征:

  • VLA = 预训练VLM + 动作生成
  • 没有互联网规模预训练 → 多模态策略(非VLA)

ICLR 2026 VLA研究趋势

趋势 核心洞察 代表论文
离散扩散VLAs 并行生成动作,比AR快 DISCRETE DIFFUSION VLA, dVLA, DIVA
Embodied CoT 中间推理改善长时任务 Actions as Language, InstructVLA
新Tokenizer 紧凑离散动作表示 FASTer, OmniSAT
高效VLAs 量化、蒸馏降低推理成本 HyperVLA, AutoQVLA
RL for VLAs 从70-80%到99%成功率 Residual RL, Stage-Aware RL
VLA + 视频预测 视频模型提供物理先验 Disentangled Robot Learning, UniVLA
跨动作空间学习 处理不同embodiment X-VLA, XR-1, HiMoE-VLA

关键发现:Frontier Labs的隐藏差距

论文结果 vs 实际表现

  • 模拟基准(LIBERO, CALVIN):开源VLA可超越Pi0.5
  • 零样本开放世界:Frontier Labs(Gemini-Robotics, Pi0.5)仍显著领先

差距原因

  1. 基准饱和掩盖真实进展
  2. 高质量数据差距
  3. 评估范围狭窄(sim-only或小规模fine-tune)
  4. 运营约束(研究团队缺乏大规模实验资源)

被忽视的问题

  1. 数据质量:OXE大多低质量,但缺少量化方法
  2. In-context learning:对VLAs潜力未被充分探索

与GigaBrain-0的呼应

GigaBrain-0 [ref] 展示了World Model作为数据引擎的路径:

  • 生成多样化训练数据
  • 减少对真实机器人数据的依赖
  • 可微分物理用于确保运动合理性

这可能是缩小Frontier Labs差距的方向之一。

对无人机VLA设计的启示

  1. 离散扩散:可能适合快速轨迹生成
  2. Embodied CoT:可提供中间航点预测
  3. 视频预测:与World Model结合,预测未来状态
  4. 可微分物理:作为约束验证器,确保运动合理性

下一步

设计"通用VLA + 可微分物理适配层"时,考虑:

  • 离散扩散 vs 自回归的选择
  • 是否需要Embodied CoT
  • 如何利用视频预测模型作为World Model

完成时间: 2026-03-05 20:35