核心发现

OneStory [ref] 解决多镜头视频生成(MSV)的方式与CineTrans完全不同:

CineTrans:注意力分离(结构性约束)
OneStory:选择性记忆(语义约束)

关键技术:Frame Selection

OneStory的核心创新是Frame Selection模块

Frame Selection机制

  1. 全局记忆:编码所有历史镜头为记忆库 M\mathbf{M}
  2. Query机制:用可学习query先从当前caption获取语义意图,再从记忆库提取相关视觉线索
  3. 相关性评分:计算每帧与当前shot的相关性分数 S\mathbf{S}
  4. Top-K选择:只保留最相关的 KselK_{sel}

这解决了什么问题?

固定窗口的困境

  • Mask2DiT、LCT等方法用固定窗口注意力
  • 窗口滑出后,早期镜头信息丢失
  • 无法处理"角色消失后再次出现"的场景

Frame Selection的解法

  • 全局记忆,永不丢失
  • 但通过选择机制,只关注相关信息
  • 类似人类记忆:不会忘记,但会选择性地"想起"

Adaptive Conditioner:重要性引导的压缩

选择相关帧后,如何高效利用?

Adaptive Patchification

传统方法:按时间顺序分配patchifier(最新帧用最细粒度)
OneStory:按重要性分配(最相关帧用最细粒度)

这是一个关键洞察:相关性 ≠ 时序近度

例子:

  • Shot 1:主角
  • Shot 2:配角
  • Shot 3:主角再次出现
  • Shot 4:环境

当生成Shot 5(主角做某事)时:

  • 传统方法:Shot 4(最新)最重要
  • OneStory:Shot 1和Shot 3(主角相关)最重要

与约束框架的关系

Frame Selection作为语义约束验证器

从"约束可执行化"框架 [ref] 的角度:

Frame Selection的可执行化

  • 约束:“保持跨镜头一致性”
  • 验证标准:“选择语义相关的帧”
  • 外部锚点:历史帧的特征表示

这与CRANE的时序分离不同:

方法 约束类型 实现方式
CRANE/CineTrans 结构性约束 分离注意力,限制交互
OneStory 语义约束 选择相关内容,主动提取

认知成本的启示

从"约束认知成本"框架 [ref] 的角度:

Frame Selection降低认知成本

  • 不对所有历史帧计算注意力(高成本)
  • 只对选中的K帧计算(低成本)
  • 但选择过程本身需要额外计算

Adaptive Conditioner的注意力分配

  • 相关帧:细粒度patchifier(高注意力)
  • 次相关帧:粗粒度patchifier(低注意力)
  • 这是一种重要性加权的注意力管理

与CineTrans的本质区别

维度 CineTrans OneStory
核心假设 模型已隐式学会镜头边界 需要显式记忆管理
约束方式 限制注意力范围 选择相关内容
记忆范围 固定窗口 全局+选择
一致性来源 注意力分离 记忆选择
训练需求 训练-free可用 需要微调
可扩展性 受窗口限制 理论上无限

关键洞察

CineTrans的发现(注意力图形成block-diagonal结构)说明模型隐式理解镜头边界。但OneStory的方法说明,对于复杂叙事(如角色消失后再次出现),隐式理解不够,需要显式的记忆机制。

开放问题

  1. 选择 vs 注意力

    • Frame Selection是一种"硬选择"(Top-K)
    • 是否可以设计"软选择"机制?
    • 类似于CineTrans的soft mask?
  2. 记忆压缩的极限

    • OneStory用1个latent frame的context tokens就能达到好效果
    • 这是否意味着"叙事信息"本身是稀疏的?
    • 或者只是模型能力的限制?
  3. 隐式 vs 显式的边界

    • 什么样的任务需要显式记忆管理?
    • 什么样的任务隐式理解就够了?
    • 是否存在一个"叙事复杂度"的度量?

批判性反思

方法论的差异

OneStory和CineTrans代表了两种不同的研究哲学:

  • CineTrans:观察现象(注意力模式),利用现象设计方法
  • OneStory:分析问题(记忆丢失),设计解决方案

前者更"自然",后者更"工程"。但OneStory的效果更好(Table 1中的Inter-shot Coherence更高)。

这是否说明:对问题的深入分析比现象观察更有价值

另一种解释

也可以这样看:

  • CineTrans是"发现式"研究:发现模型已有的能力并利用
  • OneStory是"构建式"研究:构建模型没有的能力

两者不是对立的,而是互补的。理想的系统可能需要:

  1. 利用模型的隐式理解(CineTrans)
  2. 同时提供显式的记忆管理(OneStory)

关键引用: