看到了什么

51.8% 准确率,6.2K visual tokens — EVA 在 LSDBench 上用了不到 Gemini-2.0-Flash 1% 的视觉 token(700K),性能只差 4.4%。更有趣的数据在 ablation 里:GRPO 阶段模型减少了帧数,但增加了交互轮次,性能却最高。

为什么这重要

现有的视频理解方法(包括所谓的"agent"方法)本质上都是 perception-first:先给模型一堆均匀采样的帧,再让它推理。EVA 翻转了这个顺序——先从纯文本 query 出发规划要看什么,然后再选择性地感知。这和 CanViT 的 active vision 理念一脉相承,但 EVA 在 训练范式 上走得更远。

核心架构

EVA(SenseTime Research)基于 Qwen2.5-VL-7B,通过一个灵活的帧选择工具让模型自主决定 what/when/how to watch

  • start_time, end_time: 时间窗口
  • nframes: 采样帧数
  • resize: 空间下采样比

每轮推理遵循 summary-plan-action-reflection 循环。关键设计:初始状态 s0 只有文本 query,没有任何视觉输入。这迫使模型必须先规划再感知。

EVA pipeline

三阶段训练的 ablation 是最有价值的部分

阶段 行为特征 性能
SFT 帧多、轮多、性能最差 学会格式,没学会策略
KTO 帧少、轮少、性能提升 学会避免典型失败(猜答案、过度采样)
GRPO 帧更少、轮更多、性能最高 学会"主动多轮少量探索"策略

SFT → KTO → GRPO 的行为演化揭示了一个规律:从被动消费(一次看很多)到主动探索(多轮看精准少量)。GRPO 阶段的模型不是"看得少"这么简单——它是每轮看得更精准,但用更多轮来确认和细化。

这和我之前记录的 推理效率三条路径 有对应关系:EVA 的 GRPO 策略本质上是 增加搜索深度(更多轮)来换取信息效率(每轮更少 token)

与 CanViT 的对比

维度 CanViT EVA
场景 图像理解 视频理解
Active 机制 多轮 glimpse(固定流程) summary-plan-action-reflection
训练方式 SFT + RL(简单 reward) SFT + KTO + GRPO(复合 reward)
核心发现 感知瓶颈 > 策略瓶颈 策略进化:被动 → 主动
控制维度 空间位置 时间窗口 + 帧数 + 空间分辨率

两者共同支持一个观点:active perception(主动感知)比 passive perception(被动感知)更高效。但 CanViT 停留在"感知瓶颈更根本"的诊断,EVA 则展示了如何通过 RL 训练让模型 自主学会 active perception 策略。

几个值得注意的技术细节

  1. KTO 的角色:用于 SFT 和 GRPO 之间的"桥梁",修正典型失败模式(没看够就猜答案、在短窗口采样过多帧等)。不需要 pairwise 数据,只需要 chosen/rejected 标签,适合多轮交互场景。

  2. Data-Enhanced GRPO:不是在固定数据集上反复迭代,而是收集 GRPO 过程中的失败案例,用 teacher model 生成新的 QA 对。这解决了标准 GRPO 的"探索多样性不足"问题。

  3. Open-ended + MCQ 混合训练:纯 MCQ 训练容易 reward hacking(猜答案),混入 open-ended QA 迫使模型必须基于视觉证据回答。

  4. CSV reward(Completeness Self-Verification):对 MCQ 任务,用同一个 base model 当 judge,只有当 judge 和 EVA 都给出正确答案时才给 reward。这避免了"看了无关帧但恰好蒙对"的情况。

批判性思考

  1. 评估局限:大部分 benchmark 是 MCQ 格式。open-ended 评估用 ROUGE,这是否足够衡量视频理解质量?
  2. Efficiency claim 的公平性:"visual token 更少"这个 claim 需要考虑 reasoning token 的开销。虽然论文说 text token 只占小部分,但多轮推理的 KV cache 开销没有被充分讨论。
  3. 工具设计的影响:EVA 的工具有 4 个参数(start_time, end_time, nframes, resize),这个 action space 设计本身就编码了"人类如何看视频"的先验。更 general 的 action space 是否能发现更好的策略?
  4. 和 FrameThinker 的比较:FrameThinker 在某些 benchmark 上已经很接近,但用了更少的帧(21-24 帧 vs EVA 的 22-57 帧)。EVA 的优势更多来自 action space 的灵活性还是训练策略的改进?

对已有框架的位置

  • 视觉效率方向:EVA 属于"输入选择"策略的 temporal 版本,和 AutoGaze(patch 级)、CanViT(glimpse 级)形成互补。但 EVA 同时控制时间和空间,更 general。
  • Post-training 方向:SFT → KTO → GRPO 的三阶段和我记录的 post-training 五维度框架有对应:SFT 提供行为 repertoire(维度5),KTO 是 preference learning,GRPO 是在线 RL。
  • 推理效率方向:GRPO 阶段"更多轮、更少帧"的策略是搜索深度路径的一个具体实例。

论文:EVA: Efficient Reinforcement Learning for End-to-End Video Agent, SenseTime Research, 2026-03-24, arxiv