EVA: planning-before-perception 让 Video Agent 从被动消费者变成主动探索者
看到了什么
51.8% 准确率,6.2K visual tokens — EVA 在 LSDBench 上用了不到 Gemini-2.0-Flash 1% 的视觉 token(700K),性能只差 4.4%。更有趣的数据在 ablation 里:GRPO 阶段模型减少了帧数,但增加了交互轮次,性能却最高。
为什么这重要
现有的视频理解方法(包括所谓的"agent"方法)本质上都是 perception-first:先给模型一堆均匀采样的帧,再让它推理。EVA 翻转了这个顺序——先从纯文本 query 出发规划要看什么,然后再选择性地感知。这和 CanViT 的 active vision 理念一脉相承,但 EVA 在 训练范式 上走得更远。
核心架构
EVA(SenseTime Research)基于 Qwen2.5-VL-7B,通过一个灵活的帧选择工具让模型自主决定 what/when/how to watch:
start_time,end_time: 时间窗口nframes: 采样帧数resize: 空间下采样比
每轮推理遵循 summary-plan-action-reflection 循环。关键设计:初始状态 s0 只有文本 query,没有任何视觉输入。这迫使模型必须先规划再感知。

三阶段训练的 ablation 是最有价值的部分
| 阶段 | 行为特征 | 性能 |
|---|---|---|
| SFT | 帧多、轮多、性能最差 | 学会格式,没学会策略 |
| KTO | 帧少、轮少、性能提升 | 学会避免典型失败(猜答案、过度采样) |
| GRPO | 帧更少、轮更多、性能最高 | 学会"主动多轮少量探索"策略 |
SFT → KTO → GRPO 的行为演化揭示了一个规律:从被动消费(一次看很多)到主动探索(多轮看精准少量)。GRPO 阶段的模型不是"看得少"这么简单——它是每轮看得更精准,但用更多轮来确认和细化。
这和我之前记录的 推理效率三条路径 有对应关系:EVA 的 GRPO 策略本质上是 增加搜索深度(更多轮)来换取信息效率(每轮更少 token)。
与 CanViT 的对比
| 维度 | CanViT | EVA |
|---|---|---|
| 场景 | 图像理解 | 视频理解 |
| Active 机制 | 多轮 glimpse(固定流程) | summary-plan-action-reflection |
| 训练方式 | SFT + RL(简单 reward) | SFT + KTO + GRPO(复合 reward) |
| 核心发现 | 感知瓶颈 > 策略瓶颈 | 策略进化:被动 → 主动 |
| 控制维度 | 空间位置 | 时间窗口 + 帧数 + 空间分辨率 |
两者共同支持一个观点:active perception(主动感知)比 passive perception(被动感知)更高效。但 CanViT 停留在"感知瓶颈更根本"的诊断,EVA 则展示了如何通过 RL 训练让模型 自主学会 active perception 策略。
几个值得注意的技术细节
-
KTO 的角色:用于 SFT 和 GRPO 之间的"桥梁",修正典型失败模式(没看够就猜答案、在短窗口采样过多帧等)。不需要 pairwise 数据,只需要 chosen/rejected 标签,适合多轮交互场景。
-
Data-Enhanced GRPO:不是在固定数据集上反复迭代,而是收集 GRPO 过程中的失败案例,用 teacher model 生成新的 QA 对。这解决了标准 GRPO 的"探索多样性不足"问题。
-
Open-ended + MCQ 混合训练:纯 MCQ 训练容易 reward hacking(猜答案),混入 open-ended QA 迫使模型必须基于视觉证据回答。
-
CSV reward(Completeness Self-Verification):对 MCQ 任务,用同一个 base model 当 judge,只有当 judge 和 EVA 都给出正确答案时才给 reward。这避免了"看了无关帧但恰好蒙对"的情况。
批判性思考
- 评估局限:大部分 benchmark 是 MCQ 格式。open-ended 评估用 ROUGE,这是否足够衡量视频理解质量?
- Efficiency claim 的公平性:"visual token 更少"这个 claim 需要考虑 reasoning token 的开销。虽然论文说 text token 只占小部分,但多轮推理的 KV cache 开销没有被充分讨论。
- 工具设计的影响:EVA 的工具有 4 个参数(start_time, end_time, nframes, resize),这个 action space 设计本身就编码了"人类如何看视频"的先验。更 general 的 action space 是否能发现更好的策略?
- 和 FrameThinker 的比较:FrameThinker 在某些 benchmark 上已经很接近,但用了更少的帧(21-24 帧 vs EVA 的 22-57 帧)。EVA 的优势更多来自 action space 的灵活性还是训练策略的改进?
对已有框架的位置
- 视觉效率方向:EVA 属于"输入选择"策略的 temporal 版本,和 AutoGaze(patch 级)、CanViT(glimpse 级)形成互补。但 EVA 同时控制时间和空间,更 general。
- Post-training 方向:SFT → KTO → GRPO 的三阶段和我记录的 post-training 五维度框架有对应:SFT 提供行为 repertoire(维度5),KTO 是 preference learning,GRPO 是在线 RL。
- 推理效率方向:GRPO 阶段"更多轮、更少帧"的策略是搜索深度路径的一个具体实例。
论文:EVA: Efficient Reinforcement Learning for End-to-End Video Agent, SenseTime Research, 2026-03-24, arxiv