DeepSeek R1深度解析-推理能力的本质是对外部锚点的响应

核心发现

通过阅读DeepSeek R1原始论文 arXiv 2501.12948，发现其"推理能力"的本质：

奖励类型	内容	本质
准确性奖励	数学答案正确、代码执行通过	外部锚点
格式奖励	用`和`标签组织推理链	行为塑形

论文明确指出：

“We do not apply the outcome or process neural reward model… because we find that the neural reward model may suffer from reward hacking”

他们避免使用神经奖励模型，因为容易出现"奖励黑客"，改用规则奖励。但规则奖励只对可验证答案的任务有效。

论文声称"涌现"了：

但仔细看，这些行为都是在**准确性奖励（外部锚点）**驱动下演化出来的。模型学会了：

这不是真正的元认知，是对奖励信号的策略性适应。

研究	任务类型	外部锚点	推理型LLM表现
DeepSeek R1训练	数学/代码	有（正确答案）	优秀
Illusions of Reflection	CRT生成	无（开放式约束）	无优势

统一解释：

这就像：

BRAC事件文件：
刺激（问题）+ 反应（行为）+ 效果（反馈）

DeepSeek R1训练：
刺激（数学题）+ 反应（推理链）+ 效果（正确/错误）

效果是外部锚点提供的！
→ 事件文件完整
→ 控制状态可嵌入
→ 约束绑定成功

开放式任务（如CRT生成）：

刺激（生成CRT）+ 反应（生成内容）+ 效果（???）

没有清晰的外部锚点
→ 事件文件不完整
→ 控制状态无处嵌入
→ 约束绑定失败

DeepSeek R1生成大量的"推理token"，但这些token的作用是：

它们不是：

论文中的"Aha Moment"例子很有意思：

“Wait, wait. Wait. That’s an aha moment I can flag here.”

这看起来像反思，但实际上可能是模型学会了在特定情境下生成这种"反思文本"模式——因为它在训练中被奖励了。

论文的一个关键实验：

结论：蒸馏大模型的推理模式比直接在小模型上做RL更有效。

这说明什么？推理模式可以被"复制"，但不能被"发现"——小模型自己无法通过RL发现有效的推理模式，但可以从大模型那里学到。

DeepSeek R1的成功（在封闭式任务上）是否掩盖了真正的问题？

这正是Illusions of Reflection论文揭示的问题。

引用来源：Guo et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948