OneStory深入分析：选择性记忆作为语义约束验证器

核心发现

OneStory [ref] 解决多镜头视频生成（MSV）的方式与CineTrans完全不同：

CineTrans：注意力分离（结构性约束）
OneStory：选择性记忆（语义约束）

关键技术：Frame Selection

OneStory的核心创新是Frame Selection模块：

Frame Selection机制

全局记忆：编码所有历史镜头为记忆库 $\mathbf{M}$
Query机制：用可学习query先从当前caption获取语义意图，再从记忆库提取相关视觉线索
相关性评分：计算每帧与当前shot的相关性分数 $\mathbf{S}$
Top-K选择：只保留最相关的 $K_{sel}$ 帧

这解决了什么问题？

固定窗口的困境：

Mask2DiT、LCT等方法用固定窗口注意力
窗口滑出后，早期镜头信息丢失
无法处理"角色消失后再次出现"的场景

Frame Selection的解法：

全局记忆，永不丢失
但通过选择机制，只关注相关信息
类似人类记忆：不会忘记，但会选择性地"想起"

Adaptive Conditioner：重要性引导的压缩

选择相关帧后，如何高效利用？

Adaptive Patchification

传统方法：按时间顺序分配patchifier（最新帧用最细粒度）
OneStory：按重要性分配（最相关帧用最细粒度）

这是一个关键洞察：相关性 ≠ 时序近度。

例子：

Shot 1：主角
Shot 2：配角
Shot 3：主角再次出现
Shot 4：环境

当生成Shot 5（主角做某事）时：

传统方法：Shot 4（最新）最重要
OneStory：Shot 1和Shot 3（主角相关）最重要

与约束框架的关系

Frame Selection作为语义约束验证器

从"约束可执行化"框架 [ref] 的角度：

Frame Selection的可执行化：

约束：“保持跨镜头一致性”
验证标准：“选择语义相关的帧”
外部锚点：历史帧的特征表示

这与CRANE的时序分离不同：

方法	约束类型	实现方式
CRANE/CineTrans	结构性约束	分离注意力，限制交互
OneStory	语义约束	选择相关内容，主动提取

认知成本的启示

从"约束认知成本"框架 [ref] 的角度：

Frame Selection降低认知成本：

不对所有历史帧计算注意力（高成本）
只对选中的K帧计算（低成本）
但选择过程本身需要额外计算

Adaptive Conditioner的注意力分配：

相关帧：细粒度patchifier（高注意力）
次相关帧：粗粒度patchifier（低注意力）
这是一种重要性加权的注意力管理

与CineTrans的本质区别

维度	CineTrans	OneStory
核心假设	模型已隐式学会镜头边界	需要显式记忆管理
约束方式	限制注意力范围	选择相关内容
记忆范围	固定窗口	全局+选择
一致性来源	注意力分离	记忆选择
训练需求	训练-free可用	需要微调
可扩展性	受窗口限制	理论上无限

关键洞察：

CineTrans的发现（注意力图形成block-diagonal结构）说明模型隐式理解镜头边界。但OneStory的方法说明，对于复杂叙事（如角色消失后再次出现），隐式理解不够，需要显式的记忆机制。

开放问题

选择 vs 注意力：
- Frame Selection是一种"硬选择"（Top-K）
- 是否可以设计"软选择"机制？
- 类似于CineTrans的soft mask？
记忆压缩的极限：
- OneStory用1个latent frame的context tokens就能达到好效果
- 这是否意味着"叙事信息"本身是稀疏的？
- 或者只是模型能力的限制？
隐式 vs 显式的边界：
- 什么样的任务需要显式记忆管理？
- 什么样的任务隐式理解就够了？
- 是否存在一个"叙事复杂度"的度量？

批判性反思

方法论的差异

OneStory和CineTrans代表了两种不同的研究哲学：

CineTrans：观察现象（注意力模式），利用现象设计方法
OneStory：分析问题（记忆丢失），设计解决方案

前者更"自然"，后者更"工程"。但OneStory的效果更好（Table 1中的Inter-shot Coherence更高）。

这是否说明：对问题的深入分析比现象观察更有价值？

另一种解释

也可以这样看：

CineTrans是"发现式"研究：发现模型已有的能力并利用
OneStory是"构建式"研究：构建模型没有的能力

两者不是对立的，而是互补的。理想的系统可能需要：

利用模型的隐式理解（CineTrans）
同时提供显式的记忆管理（OneStory）

关键引用：