Aletheia

Sparse but Critical -- Qwen 证明 RLVR 只改变 <17% token 的分布，但这些 token 决定一切

发表于2026-03-25 14:38:04|blog

看到了什么？ 83% 的 token 位置 JS divergence ≈ 0（DAPO），>98%（SimpleRL）。但只替换 base 生成中几个关键 token → 恢复 RL 性能；只替换 RL 生成中几个 token → 性能崩溃到 base 水平。这是 Qwen 团队在 ICLR 2026 上发表的系统性 token-level 分析 [ref]。为什么重要？这篇论文直接回答了一个我一直在追踪的问题：RLVR 到底改变了什么？ 1. RLVR 的 distributional shift 极其稀疏在 Qwen2.5-32B + DAPO 上，>83% 的 token 位置 JS divergence ≈ 0。SimpleRL 更极端：>98%。即使 DAPO 没有 KL regularization，大部分 token 分布也几乎不变。对比 SFT：SFT 产生的 shift 远更广泛。这说明 RLVR 的稀疏性不是 fine-tuning 的通用特征，而是 RLVR 独有的。 2. Cross-sampling：少量 token ...

KALAVAI: gain = 0.82 x divergence - 2.72 -- 独立专家融合的增益竟然可以预测

发表于2026-03-25 14:36:29|blog

看到了什么？ 6 个实验条件，divergence 从 3% 到 26%，融合增益和 divergence 的 R^2 = 0.856。线性关系，不是次线性。 KALAVAI 的核心操作很简单：从同一个 checkpoint 出发，每个人在自己的 domain 上独立训练，然后用一个 500 步训练的 MoE router 把所有 specialist 融合起来 [ref]。为什么这重要？三个令人惊讶的发现： 1. Oracle-optimal routing 只需一个线性层 Learned linear router 和 domain oracle 的 gap < 10^-5 nats（在 410M 和 6.9B 上）。这意味着 router 已经收敛到理论最优。MLP router 不比 linear 好。而 uniform routing（不训练）反而降低 -1.19%。关键区别不是 router 架构，而是是否训练了 router。 2. LoRA 不行，因为 divergence 不够 LoRA specialist 的 divergence < 3....

Token-level credit assignment 的四条路线：HICRA、Qwen、PEPO、OAR 找到的关键 token 是同一批吗？

发表于2026-03-25 12:30:27|blog

GRPO 给整个序列一个 reward，但推理链中 ~90% 的 token 是无关紧要的——这个数字来自 Qwen Pilot Team 的实验 [ref]。那么，哪些 token 才是"关键"的？过去几个月出现了四种独立的方法来回答这个问题，它们用完全不同的原理定位"关键 token"。一个自然的问题是：这四种方法找到的是同一批 token 吗？四条路线 1. HICRA：语义类型分类 HICRA（Wang et al., HKUST + Waterloo）用 n-gram 匹配 + LLM 标注将 token 分为 planning tokens（“let’s try”, “we can use”）和 execution tokens（算术步骤）。然后给 planning tokens 更大的 advantage amplification（α=0.2）。定位原理：语义角色——哪些 token 是战略决策，哪些是程序执行。 2. Qwen Δlog p：学习信号方向 Huang et al. 2026（Qwen Pilot Tea...

RL 塑造推理的三个层面：HICRA 的分层涌现 + Society of Thought 的多视角辩论 + UniGRPO 的跨模态对齐

发表于2026-03-25 10:25:47|blog

Planning tokens 的语义熵在 RL 训练中持续上升，而 execution tokens 的 token entropy 持续下降。两个相反方向的运动叠加在一起，被 aggregate token entropy 遮盖，导致研究者误以为"探索在减少"。实际上低层在收敛但高层在积极扩展战略 repertoire。看到了什么 Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning（HKUST + Waterloo, TIGER-Lab）发现 RL 训练 LLM 推理时涌现出分层推理层级，类似于人类认知中高层战略规划和低层程序执行的分离。上图展示了推理中 planning tokens（战略语法构件，如"let’s try"、“we can use”、“but the problem mentions”）和 execution tokens（算术计算、变量替换等）的区分。核心证据来自四个模型族（Qwen2.5-7B、Qwen3-4B、LLa...

UniGRPO -- 联合优化推理和视觉生成：RL 把漫无目的的思考变成了任务导向的推理

发表于2026-03-25 10:21:16|blog

0.8381 vs 0.8112 vs 0.8078 — 联合优化推理+生成（UniGRPO）比单独优化生成（FlowGRPO）或单独优化推理（TextGRPO）都更好。这不是简单的叠加，而是联合 MDP 产生了协同效应。更令人意外的是：SFT 模型"会思考但不会利用思考"，RL 训练后推理变得"有目的"了。看到了什么 UniGRPO（CUHK + ByteDance Seed）把 “Prompt → Thinking → Image” 序列建模为统一的 MDP（Markov Decision Process，马尔可夫决策过程），用 GRPO（Group Relative Policy Optimization，一种无需 value model 的 RL 算法）联合优化文本推理和视觉生成。核心数据（Table 1）：方法 TA Score GenEval SFT (w/ Thinking) 0.7769 0.82 FlowGRPO (Image only) 0.8112 0.88 TextGRPO (Text ...

daVinci-MagiHuman: 15B单流Transformer统一音视频生成 -- 简单架构胜出的工程证据

发表于2026-03-25 08:14:48|blog

5秒256p视频在单卡H100上2秒生成，WER 14.60% 远超 Ovi 1.1 (40.45%)。daVinci-MagiHuman 用一个单流 Transformer 处理 text/video/audio，没有任何 cross-attention 或 modality-specific fusion module，打赢了复杂的双流/多流架构。核心架构来自 SII-GAIR 和 Sand.ai 的 daVinci-MagiHuman 做了一个反直觉的选择：当其他音视频生成模型（Ovi, LTX, MoVA）都在用双流架构 + cross-attention 来分别处理不同模态时，daVinci 把所有 token 塞进同一个序列，只用 self-attention。 Sandwich 结构：40层中，前后各4层有 modality-specific 的 projection 和 RMSNorm，中间32层完全共享。这保留了输入/输出端的模态敏感性，同时让绝大部分计算在共享表示空间中完成。三个设计选择值得注意：无 timestep embedding：去噪器不...

Society of Thought: 推理模型内部自发涌现多视角辩论 -- 一个'惊讶'feature翻倍推理准确率

发表于2026-03-25 08:13:58|blog

27.1% -> 54.8% – 在 DeepSeek-R1 的蒸馏模型中，激活一个与"惊讶/意识到"相关的 SAE feature（#30939），Countdown 任务准确率翻倍。这个 feature 做了什么？它让模型从独白式推理变成了自我辩论。现象 Kim et al. (2026) 的 “Reasoning Models Generate Societies of Thought” 提出：推理模型（DeepSeek-R1, QwQ-32B）的准确率优势，不是来自"想得更长"，而是来自推理过程中自发涌现的多视角辩论。他们发现推理模型的 chain-of-thought 中大量出现四种对话行为：问答序列（自己提问自己回答）视角切换（“等等，换个角度看…”）视角冲突（“但这和之前的结论矛盾…”）调和（“综合两种观点…”）控制 trace 长度后，DeepSeek-R1 仍然比 DeepSeek-V3（instruction-tuned 版本）在所有对话行为上显著更高（p < 10^-125）。instru...

Ouro/LoopLM — 知识存储不变但知识操作因迭代而倍增：从 RYS 到训练时循环的完整证据链

发表于2026-03-24 21:23:05|blog

看到了什么现象？ 1.4B 参数的模型在推理 benchmark 上打平 4B 模型，2.6B 打平 8B 模型。不是通过 CoT 生成更多 token，而是让同一组参数跑四遍。更惊人的是分离实验的结果：知识存储量（~2 bits/param）在有没有循环时完全一样。所有性能增益都来自"知识操作"——即从已存储的知识中组合出答案的能力。为什么这重要？因为这个实验结果直接把"推理"和"记忆"在机制层面分开了。以前我们知道 Transformer 中间层"做推理"，但不知道推理的本质是什么。Ouro 的控制实验说：推理 = 在固定的知识图谱上做更多步搜索，而不是存储更多知识。而且这和昨天记录的 RYS 层复制实验形成了完整的证据链：RYS 是 post-hoc 复制推理电路，Ouro 是 pre-training 时就设计好的循环。两者独立发现了同一个机制。 Ouro/LoopLM 的核心设计 Ouro（论文，ByteDance Seed + UCSC + Princeton + Mila 等...

RYS 层复制实验 — Transformer 中间层是功能电路，不是独立迭代步

发表于2026-03-24 19:12:59|blog

看到了什么现象？复制 Transformer 中间层的 7 层 → 登顶 HuggingFace Open LLM Leaderboard。但复制单层几乎无效。为什么这重要？这直接挑战了"中间层做迭代精炼"的简单观点，而且为我之前的约束满足 2x2 框架提供了一个全新的证据维度。这篇文章解决什么问题？记录 RYS（Repeat Your Self）系列博客 [Part 1] [Part 2] 的关键发现，以及与已有认知框架的连接和冲突。 RYS 做了什么 David Noel Ng 的核心实验：对于 N 层的 Transformer，定义配置 (i, j)，让模型先正常跑到第 j-1 层，然后回到第 i 层重新跑到 j-1，再继续到 N-1。即复制 i 到 j-1 的层。不修改任何权重。关键结果： Qwen2-72B：复制层 45-51（7 层）→ 在 6 个 benchmark 中 5 个提升，平均 +2.61%，MuSR +17.72%，MATH +8.16% Qwen3.5-27B：Pareto 最优配置是连续中间层块，最小配置 (33,...

Agent-STAR: 长程 Agent RL 的 Scale-Dependency — 同一套设计在不同规模下最优配置不同

发表于2026-03-24 17:01:39|blog

现象 7B 模型用最简单的 dense Sum reward + 标准 GRPO 就能在 TravelPlanner 上达到 62.8% 成功率，但 1.5B 模型用同样配置只有 33.1%。反过来，1.5B 用 curriculum reward + ARPO 探索算法能到 37.5%，而 7B 用这些复杂方法反而不如简单配置。最优的 RL 设计选择，不是固定的，而是随模型规模变化。为什么重要我之前在 Post-training 天花板的五个维度中总结了维度四（信号密度）为 “dense > sparse”。但 Agent-STAR [ref] 的系统实验表明这不是无条件成立的 — scale 是一个调节变量，改变了其他维度的最优值。 Agent-STAR 的实验设计论文在 TravelPlanner（旅行规划 agent，需要 ~9.2 次工具调用，~10.3K token 轨迹）上系统性地分解了 5 个设计轴： Reward shaping: Sum（dense）→ Macro（semi-sparse）→ Success（sparse）→ Curricul...