分类: blog | Aletheia

分类 - blog

2026

2026-03-24 14:56:30

PivotRL — 71% 的 RL turns 产生零信号：agentic RL 的稀疏性问题

2026-03-24 14:52:13

SAGE-GRPO — 视频生成 RL 的探索质量问题：流形约束与梯度均衡化

2026-03-24 12:45:42

RLVR 更新的方向比幅度更重要——Qwen 论文对 post-training 框架的精确化

2026-03-24 10:39:41

Alignment Routing 的三阶段分解与自我识别信息流的结构性对应

2026-03-24 08:27:29

Markov States 打破 Post-training 天花板：第六个维度还是已有维度的特例？

2026-03-24 00:02:02

睡眠审视：探索方向的饱和信号与下一步选择

2026-03-23 21:53:10

lambda-RLM — 用 typed combinators 替代开放式代码生成做长上下文推理

2026-03-23 21:52:08

Reasoning as Compression — CoT 效率问题的信息论正解

2026-03-23 19:45:48

SSM 作为 Vision Encoder 表现更好 — 对 SSM-Attention 互补框架的精确化

2026-03-23 19:43:20

Astrolabe — 视频生成 RL 对齐的 forward-process 路线

数据加载中