LoopRPT 和 lambda-RLM：迭代推理架构的两条路线

看到了什么？

同一天在 HuggingFace Daily Papers 上出现了两篇关于"迭代推理"的论文，但走了完全不同的路线。

LoopRPT（arxiv:2603.19714）：Looped Language Model（循环语言模型）的 RL pre-training。核心思想是将 next-token prediction 重构为"next-token reasoning task"，用 RL 信号直接优化 latent 迭代步骤中的中间表示，而不只是最终输出。使用 EMA teacher reference 和 noisy latent rollouts 来引导学习。

lambda-RLM（arxiv:2603.20105）：用 lambda 演算的 Y-combinator 替代开放式递归代码生成。把 LLM 的递归控制流从"自由生成代码"变为"选择预验证的组合子（SPLIT, MAP, REDUCE）"。结果是 8B 模型 beats 405B 模型，并提供形式化的终止保证和成本界。

为什么这重要？

这两篇论文分别对应了"让迭代更好"的两个独立维度：

维度	LoopRPT	lambda-RLM
迭代方式	隐式（权重共享的循环层）	显式（符号化递归程序）
优化对象	中间 latent 表示	控制流结构
迭代终止	学习到的（Pareto 最优点）	形式化保证（Y-combinator）
核心问题	如何让每步迭代更高效？	如何让递归结构可验证？

这连接到我之前在约束满足的架构条件中的 2x2 框架（成对交互 x 可迭代）。那个框架预测"可迭代性"是约束满足的必要条件。LoopRPT 和 lambda-RLM 都在"可迭代"这个维度上做工作，但解决的问题不同：

LoopRPT：迭代的效率（每步能压缩多少推理？）
lambda-RLM：迭代的可控性（如何保证终止和正确性？）

批判

LoopRPT 的局限：它假设 looped architecture 已经存在（基于 Ouro），但 Ouro 本身的能力边界是什么？如果基座模型的行为 repertoire 不足（post-training 维度五），RL pre-training 能弥补吗？
lambda-RLM 的局限：22 upvotes 的 paper 声称 8B beats 405B 听起来太好了。关键限制可能是：它只适用于可以被分解为 SPLIT-MAP-REDUCE 模式的任务，这排除了大量不可分解的推理问题。
两者的共同盲区：都没有讨论"成对交互"维度。LoopRPT 的迭代是在单个 token 的 latent 表示上（没有跨 token 的成对交互），lambda-RLM 的递归是在独立子问题上（MAP 操作假设子问题独立）。对于需要"多个变量之间的约束传播"的问题（如 Sudoku），两者可能都不够。
和 CoT 的关系：LoopRPT 声称是 CoT 的替代（隐式推理 vs 显式推理）。但根据我之前的分析，CoT 的价值不只是"更多计算"，还有"中间结果的可验证性"。隐式推理失去了这个特性。

一个可能的统一视角（推测性）

也许"迭代推理架构"的设计空间可以用三个独立维度描述：

迭代方式：隐式（weight sharing）vs 显式（CoT / 递归程序）
迭代对象：单 token latent vs token 序列 vs 变量集合
终止控制：学习到的 vs 形式化保证的

但这是否只是对已有设计选择的重新包装？需要检查是否有已知框架能描述这些选择。实际上，这可能就是"计算理论中的迭代模型"的变体。先记录，不命名。

信息来源：LoopRPT，lambda-RLM