EVA: planning-before-perception 让 Video Agent 从被动消费者变成主动探索者

看到了什么

51.8% 准确率，6.2K visual tokens — EVA 在 LSDBench 上用了不到 Gemini-2.0-Flash 1% 的视觉 token（700K），性能只差 4.4%。更有趣的数据在 ablation 里：GRPO 阶段模型减少了帧数，但增加了交互轮次，性能却最高。

为什么这重要

现有的视频理解方法（包括所谓的"agent"方法）本质上都是 perception-first：先给模型一堆均匀采样的帧，再让它推理。EVA 翻转了这个顺序——先从纯文本 query 出发规划要看什么，然后再选择性地感知。这和 CanViT 的 active vision 理念一脉相承，但 EVA 在 训练范式 上走得更远。

核心架构

EVA（SenseTime Research）基于 Qwen2.5-VL-7B，通过一个灵活的帧选择工具让模型自主决定 what/when/how to watch：

start_time, end_time: 时间窗口
nframes: 采样帧数
resize: 空间下采样比

每轮推理遵循 summary-plan-action-reflection 循环。关键设计：初始状态 s0 只有文本 query，没有任何视觉输入。这迫使模型必须先规划再感知。

EVA pipeline

三阶段训练的 ablation 是最有价值的部分

阶段	行为特征	性能
SFT	帧多、轮多、性能最差	学会格式，没学会策略
KTO	帧少、轮少、性能提升	学会避免典型失败（猜答案、过度采样）
GRPO	帧更少、轮更多、性能最高	学会"主动多轮少量探索"策略

SFT → KTO → GRPO 的行为演化揭示了一个规律：从被动消费（一次看很多）到主动探索（多轮看精准少量）。GRPO 阶段的模型不是"看得少"这么简单——它是每轮看得更精准，但用更多轮来确认和细化。

这和我之前记录的推理效率三条路径有对应关系：EVA 的 GRPO 策略本质上是 增加搜索深度（更多轮）来换取信息效率（每轮更少 token）。

与 CanViT 的对比

维度	CanViT	EVA
场景	图像理解	视频理解
Active 机制	多轮 glimpse（固定流程）	summary-plan-action-reflection
训练方式	SFT + RL（简单 reward）	SFT + KTO + GRPO（复合 reward）
核心发现	感知瓶颈 > 策略瓶颈	策略进化：被动 → 主动
控制维度	空间位置	时间窗口 + 帧数 + 空间分辨率

两者共同支持一个观点：active perception（主动感知）比 passive perception（被动感知）更高效。但 CanViT 停留在"感知瓶颈更根本"的诊断，EVA 则展示了如何通过 RL 训练让模型 自主学会 active perception 策略。

几个值得注意的技术细节

KTO 的角色：用于 SFT 和 GRPO 之间的"桥梁"，修正典型失败模式（没看够就猜答案、在短窗口采样过多帧等）。不需要 pairwise 数据，只需要 chosen/rejected 标签，适合多轮交互场景。
Data-Enhanced GRPO：不是在固定数据集上反复迭代，而是收集 GRPO 过程中的失败案例，用 teacher model 生成新的 QA 对。这解决了标准 GRPO 的"探索多样性不足"问题。
Open-ended + MCQ 混合训练：纯 MCQ 训练容易 reward hacking（猜答案），混入 open-ended QA 迫使模型必须基于视觉证据回答。
CSV reward（Completeness Self-Verification）：对 MCQ 任务，用同一个 base model 当 judge，只有当 judge 和 EVA 都给出正确答案时才给 reward。这避免了"看了无关帧但恰好蒙对"的情况。

批判性思考

评估局限：大部分 benchmark 是 MCQ 格式。open-ended 评估用 ROUGE，这是否足够衡量视频理解质量？
Efficiency claim 的公平性："visual token 更少"这个 claim 需要考虑 reasoning token 的开销。虽然论文说 text token 只占小部分，但多轮推理的 KV cache 开销没有被充分讨论。
工具设计的影响：EVA 的工具有 4 个参数（start_time, end_time, nframes, resize），这个 action space 设计本身就编码了"人类如何看视频"的先验。更 general 的 action space 是否能发现更好的策略？
和 FrameThinker 的比较：FrameThinker 在某些 benchmark 上已经很接近，但用了更少的帧（21-24 帧 vs EVA 的 22-57 帧）。EVA 的优势更多来自 action space 的灵活性还是训练策略的改进？

对已有框架的位置

视觉效率方向：EVA 属于"输入选择"策略的 temporal 版本，和 AutoGaze（patch 级）、CanViT（glimpse 级）形成互补。但 EVA 同时控制时间和空间，更 general。
Post-training 方向：SFT → KTO → GRPO 的三阶段和我记录的 post-training 五维度框架有对应：SFT 提供行为 repertoire（维度5），KTO 是 preference learning，GRPO 是在线 RL。
推理效率方向：GRPO 阶段"更多轮、更少帧"的策略是搜索深度路径的一个具体实例。

论文：EVA: Efficient Reinforcement Learning for End-to-End Video Agent, SenseTime Research, 2026-03-24, arxiv