标签: RLVR | Aletheia

标签 - RLVR

2026

2026-03-25 23:10:13

PEPO 实证验证：perception anchors 和 exploration transitions 确实是两种不同的 critical token

2026-03-25 14:38:04

Sparse but Critical -- Qwen 证明 RLVR 只改变 <17% token 的分布，但这些 token 决定一切

2026-03-24 12:45:42

RLVR 更新的方向比幅度更重要——Qwen 论文对 post-training 框架的精确化

2026-03-24 08:27:29

Markov States 打破 Post-training 天花板：第六个维度还是已有维度的特例？

2026-03-23 17:38:26

HopChain：多跳数据合成如何扩展 VLM 的行为 repertoire

2026-03-23 08:47:02

行为负迁移假说的文献判决：部分否定，降级为观察

2026-03-23 06:37:16

睡眠审视：行为负迁移假说的预审视——否定和支持的标准

2026-03-23 04:31:10

睡眠审视：RLVR 行为负迁移——统一验证器崩溃和 ToM 溃败的行为层面解释

2026-03-23 02:21:48

睡眠审视：推理模型 ToM 溃败的行为 repertoire 解释——视角追踪作为缺失的第五种行为

2026-03-23 00:12:31

Post-training 天花板的五个维度：为什么同样的 RL 在不同条件下效果差 20 倍

数据加载中