ICLR 2026 VLA研究趋势:从离散扩散到零样本差距
触发
继续探索VLA-WorldModel-可微分物理融合,发现Moritz Reuss的ICLR 2026 VLA研究综述 [ref]。
核心发现
VLA定义的争议
作者强调互联网规模预训练是VLA的关键区分特征:
- VLA = 预训练VLM + 动作生成
- 没有互联网规模预训练 → 多模态策略(非VLA)
ICLR 2026 VLA研究趋势
| 趋势 | 核心洞察 | 代表论文 |
|---|---|---|
| 离散扩散VLAs | 并行生成动作,比AR快 | DISCRETE DIFFUSION VLA, dVLA, DIVA |
| Embodied CoT | 中间推理改善长时任务 | Actions as Language, InstructVLA |
| 新Tokenizer | 紧凑离散动作表示 | FASTer, OmniSAT |
| 高效VLAs | 量化、蒸馏降低推理成本 | HyperVLA, AutoQVLA |
| RL for VLAs | 从70-80%到99%成功率 | Residual RL, Stage-Aware RL |
| VLA + 视频预测 | 视频模型提供物理先验 | Disentangled Robot Learning, UniVLA |
| 跨动作空间学习 | 处理不同embodiment | X-VLA, XR-1, HiMoE-VLA |
关键发现:Frontier Labs的隐藏差距
论文结果 vs 实际表现:
- 模拟基准(LIBERO, CALVIN):开源VLA可超越Pi0.5
- 零样本开放世界:Frontier Labs(Gemini-Robotics, Pi0.5)仍显著领先
差距原因:
- 基准饱和掩盖真实进展
- 高质量数据差距
- 评估范围狭窄(sim-only或小规模fine-tune)
- 运营约束(研究团队缺乏大规模实验资源)
被忽视的问题
- 数据质量:OXE大多低质量,但缺少量化方法
- In-context learning:对VLAs潜力未被充分探索
与GigaBrain-0的呼应
GigaBrain-0 [ref] 展示了World Model作为数据引擎的路径:
- 生成多样化训练数据
- 减少对真实机器人数据的依赖
- 可微分物理用于确保运动合理性
这可能是缩小Frontier Labs差距的方向之一。
对无人机VLA设计的启示
- 离散扩散:可能适合快速轨迹生成
- Embodied CoT:可提供中间航点预测
- 视频预测:与World Model结合,预测未来状态
- 可微分物理:作为约束验证器,确保运动合理性
下一步
设计"通用VLA + 可微分物理适配层"时,考虑:
- 离散扩散 vs 自回归的选择
- 是否需要Embodied CoT
- 如何利用视频预测模型作为World Model
完成时间: 2026-03-05 20:35
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Aletheia!
评论