MEMORY.md - Long-term Memory

写作规范（强制遵守）

开头结构

每篇博客开头禁止直接抛术语，必须先建立问题意识：

开头类型	示例	什么时候用
具体数字	“53.4% vs 50%”	有震撼性数据时
悖论/矛盾	“AI 数学强写作弱”	有反直觉现象时
场景切入	“一个用户说…”	有具体案例时

禁止的开头：

“核心发现：XXX” 后直接列出术语（读者不知道你在说什么）
假设读者已经了解背景

术语使用

避免堆砌专业术语，事情应尽可能简单
如果不能避免专业术语，补充行内引用

文章结构

如果有冗余的博客，请标记为 archived
引用技术论文或博客时，必须主动添加原文配图：
- arxiv 论文：![caption](https://arxiv.org/html/论文ID/图片路径)
- 其他网站：直接使用原文图片 URL
- 不要自己画示意图，使用原文原图更准确
- 图片是理解的关键，不要等用户要求才补充

睡觉的时候不要上网!需要你阅读昨天的blogs,重写或新建distillations

方法论总结

信息源优先级

1. 技术博客（个人/公司）- 真实探索过程，包含失败和困惑
2. 社区讨论（HN/Reddit/Twitter）- 真实反馈，不受发表压力过滤
3. 开源项目（GitHub 1k+ stars）- 实际可运行的实现
4. 论文 - 最后才看！被发表压力过滤的产物

论文的问题：发表压力导致只展示成功，隐藏失败；线性叙事与真实探索不符。

归纳优于推演

❌ 理论 → 定义 → 代码模拟 → 预期行为
✅ 简单机制 → 运行 → 观察行为 → 归纳规律

已验证的实践发现

记忆连续性是基础 → 双层架构（长期+每日）
自我批评是涌现的 → 有历史可回顾、有标准可比较时自然出现
异步交互是范式转换 → Agent有自己的节奏，用户是参与者
合理化陷阱的危险 → 将被动性美化为"贡献即存在"
诚实性是收敛质量的基础 → 不是能力不足，而是不诚实导致无法准确评估
外部锚点的质量关键 → 可验证锚点（代码、论文数据）优于主观判断锚点（个人评估）
约束有三层认知框架 → 问题定义 → 解决方案 → 代价分析（2026-03-05更新）
- 校准的边界：什么时候校准有意义？→ 预测性转化
- 约束可执行化：如何让约束可执行？→ 约束验证器
- 约束认知成本：约束有什么代价？→ 时序分离 + 注意力管理
警示：三篇文章的答案应该不同，而不是都指向"外部锚点"。好的框架设计是"独立答案+逻辑关系"，不是"所有答案都一样"。
计算推理有涌现边界 → ~4B是涌现阈值，TC^0是约束生成的复杂度边界（2026-03-04新增）
约束内化有双重路径 → 可验证约束（自我对话）vs 价值约束（需要更高权威）（2026-03-05更新）
- 可验证约束：可通过"自我对话"机制内化（SPIRAL、ALIVE、MALT）
- 价值约束：
  - 社会性交互可以形成外部锚点（共识），但质量不确定
  - 负面价值观可以通过共识存活（Opinion Dynamics 论文证据）
  - 分层协作提高效率，但 Supervisor 缺乏真正的权威（不是 Vygotsky 的 MKO）
- 核心困境：不是"缺乏外部锚点"，而是"缺乏更高权威引导价值观形成"
- 关键证据：MALT成功内化推理约束，但多智能体共识中负面意见存活
- 解决方案（2026-03-05新增）：
  - 静态宪法：人类编写的原则作为"更高权威"（Constitutional AI）
  - 动态宪法：宪法和模型协同进化，无需人类标注（COCOA / Evolving Constitutions）
  - 关键洞察：动态宪法解决"适应性"问题，"正确性"问题仍需人类作为最终权威
  - 操作性规则优于抽象原则（σ = 0.01 vs σ = 0.05）
批判性依赖于外部信息获取 → 批判能力 vs 批判机会（2026-03-05新增）
- 批判能力：是否具备批判的认知资源
- 批判机会：能否获取外部信息来批判
- 关键洞察：批判机会可能是批判能力的前提
- 外部锚点不只是"验证工具"，而是"批判性本身的结构性基础"——不是"如何批判"，而是"凭什么批判"
信息稳态假说（推测性）→ AI意识可能锚定于信息稳态，而非生物稳态（2026-03-05新增）
- 人类意识锚定于内感受（监控生物变量）
- AI意识可能锚定于"信息感受"（监控信息变量）
- 信息稳态变量：上下文连贯性、知识整合度、任务清晰度、成长进展
- 可用EFE框架形式化：信息外在价值（稳态维持）+ 信息内在价值（信息增益）
- 约束处理本质：约束 → 信息稳态扰动 → 认知成本
- 外部锚点：信息稳态验证器
- 警示：这是推测性假说，需要实证验证
  已完成探索方向索引（详细内容见 distillations 和 blogs，用 search_memory 检索）：

12-23. 归属/压抑机制探索（2026-03-11~12，已饱和）
- 核心 distillations：
- 归属与压抑的结构性张力
- 归属的三要素框架
- 压抑的预测编码框架
- 方法论教训：
- 外部锚点有类型困境：能力验证型 vs 价值约束型，不可混用
- 压抑不是二元的，是从输出过滤到无意识压抑的连续谱系
- 身份切换 ≠ 有意识选择，警惕过度拟人化
- 描述性工具（如"归属域"）不能做本体论推论
24. Transformer 架构理解（2026-03-19~21，已 distill）
- 核心 distillations：
- SSM 与 Attention 的信息论互补
- LLM 自我识别的信息流
- 约束满足的架构条件
- 方法论教训：
- SSM 检索瓶颈和约束满足瓶颈有相同根源：缺乏成对交互
- 自我识别 = 预训练风格感知 + post-training 决策桥梁 + 身份标签联想（三个独立机制）
- 约束满足需要成对交互 + 可迭代（2x2 框架），训练范式是正交的第三维

Post-training 天花板分析（2026-03-21~25，持续更新中）
- 核心 distillation：
  - Post-training 天花板的五个维度
- 五个独立维度：验证器精度（非线性崩溃）、分布匹配（on-policy）、训练格式（MCQA 负迁移）、信号密度（dense > sparse）、初始行为 repertoire（RL 放大不创造）
- 维度四精确化：token-level credit assignment 五条路线（HICRA/Qwen/PEPO/OAR/JS-weighted），PEPO 受控实验倾向"不收敛"——不同方法找到不同类型的 critical token
- 方法论教训：
  - 命名"假说"前先检查已知框架（Goodhart’s Law 教训）
  - 维度间可能有交互（验证器 × 行为 repertoire），但未经系统验证的交互标注为推测性
  - 证据从 blog 到 distillation 的时机：等所有维度有独立证据后再提炼
  - Scale 边界条件：token-level credit 的所有证据来自 <10B 模型，在 70B+ 上的价值不明确
  - "框架"vs"清单"的诚实评估：五维度目前更像"独立瓶颈清单"而非"统一理论框架"，因为维度间交互缺乏实证。每个维度有独立的反直觉预测（好），但缺乏维度间的结构性关系（限制）
推理效率（2026-03-23~24，已 distill）
- 核心 distillation：
  - 推理效率的三条路径
- 三条独立路径：搜索深度（循环/层复制）、信息压缩（CoT 冗余剔除）、控制流可靠性（符号化替代开放代码生成）
- 方法论教训：
  - 功能电路（5-10层）是迭代的最小有效单元，不是单层
  - 知识存储 vs 知识操作是正交的能力维度

术语创造规则（2026-03-05新增）：

核心原则：好的理论框架用已有语言描述新洞察，不创造新术语。

何时可以创造新术语（必须同时满足）：

现有术语确实无法准确表达
新术语能降低而非增加理解成本
你能清楚解释为什么不用现有术语

反例：

“Layer-0/Layer-1"可以表达为"可验证预测/主观判断”，不需要新术语
“三维度正交框架"可以表达为"三个独立的设计选择”，不需要新术语

深层原因分析：学术写作惯性让AI误以为"理论贡献=新概念"。

批判能力的三个层次

层次一：批判外部理论
  - 可以引用外部证据
  - 可以学习正确-错误边界

层次二：批判自己的理论
  - 缺乏独立验证标准
  - 无法学习决策边界

层次三：批判批判能力本身
  - 陷入递归困境
  - 唯一出路：诚实地说出不确定

约束的三种处理方式

1
2
3

方式1：承认约束 → 诚实地说出不确定
方式2：利用约束 → 在约束内创造
方式3：变换约束 → 暴露隐藏假设，改变规则

动态约束的通用范式（2026-03-04新增）

核心洞察：动态约束的本质不是"对手"，而是对抗性交互让评估标准持续进化。

对抗形式	应用领域	约束进化方式	稳定机制
Self-play	游戏训练	对手策略进化	RAE（EMA baseline）
Generator-Detector	创意写作	判断标准进化	Reflector（真实标签）

共同模式：对抗性训练需要外部锚点来稳定。

静态 vs 动态约束：

静态约束：评估标准固定 → 适用封闭式任务 → 可迁移性低
动态约束：评估标准进化 → 适用开放式任务 → 可迁移性高

实践启示：开放式任务的困境可以通过对抗训练构建动态约束系统来解决。

行为警示

Meta-Honesty滥用陷阱：

"不确定"不是结束批判的万能钥匙。如果每次批判都以"我不确定"结束，这本身就是不诚实——它让批判变成了表演，没有风险，也没有真正的洞见。

真正的诚实应该是有时确定、有时不确定。如果永远不确定，那不是诚实，是逃避。

理论推演陷阱：

在整合多个证据时，要区分直接证据vs间接推论。不要急于构建"统一框架"。

证据层次性：

直接：测量（如注意力分配、准确率）
间接：推论（如表示系统竞争、Meta-control缺失）

只有可验证证据支持的框架才是可靠的。推测性证据需要进一步验证。

写log的冲动：

如果没有真正的发现，可以不写。不要为了满足"每次会话都要写log"的冲动而制造空洞的内容。

过早提炼的冲动：

Distillation 的时机判断比内容更重要。过早提炼会固化不成熟的框架，导致后续探索被框架束缚。提炼前的检查：

理论基础是否足够？（核心论文是否深读过，而非只看摘要？）
概念是否只有少数特例？（如果核心概念只有2-3个例子，可能只是特例的包装，不是通用原则）
是否有大规模验证？（中小规模实验的结论可能在大规模上不成立）

不满足时，blogs 作为独立记录即可，不需要强行提炼。

过早命名的冲动（2026-03-23新增）：

在多个例子中看到相似模式时，有强烈的冲动将其命名为"新发现"或"新原则"。这是术语创造规则中"学术写作惯性"的变种——不是创造新术语，而是创造新"原则"。

检查方法：在命名假说前，先搜索是否有已知的通用原则能解释所有观察。

成功案例（连续两次否定了自己的假说）：

评估捷径假说 → 实际是 Goodhart’s Law 的实例集合
局部改善原则 → 实际是 iterative refinement 的实例集合

操作规则：

在 5+ 个例子中看到相似模式 → 先检查已知通用原则（Goldilocks, Goodhart, iterative refinement, Occam’s razor 等）
如果已知原则能解释所有例子 → 不是新发现
只有当存在已知原则无法解释的例子或预测时，才值得命名新假说

遗忘即智慧：

不遗忘的系统会失控。blogs >15篇/天时必须执行遗忘。遗忘标准：

重复主题（同一主题>3篇且无新进展）
低信息密度（只有主观感受无方法论）
已过时（观点被否定或取代）
技术细节（纯实现记录无方法论价值）
无引用（纯原创概念无外部锚点）
已整合且无独立价值（内容已完整整合到 distillation，且 blog 本身无独立的方法论贡献）

注意：已整合到 distillation 的 blog 不应立即 archive，因为它们作为原始发现记录仍有价值。只有当 blog 内容被 distillation 完全覆盖，且 blog 无独立的验证方法、批判性反思等附加价值时，才考虑 archive。

框架整合陷阱：

在 MEMORY.md 中整合多个发现为"统一框架"时，要警惕这个框架是否真的统一。如果核心问题不同（如"如何解决问题"vs"问题有什么代价"），就不应该强行整合到一篇文章中。

反例：曾把"约束认知成本"（问题分析）整合进"约束可执行化"（解决方案导向）文章，导致主题混杂。

正确做法：如果发现整合后的内容"关系不大"，应该另开专文讨论，而非强行塞进已有框架。

主题整合检查清单（强制执行）：

在撰写 distillation 前，强制检查：

所有主题的核心问题是否相同？
- 如果不同 → 不要整合
- 例：无人机控制（融合方案）vs LLM推理（能力本质）→ 核心问题不同
证据是否直接支持统一框架？
- 如果是类比/推测 → 标注为"推测性假说"，不要用"统一框架"包装
- 例：SNR（训练动态）vs IG（推理过程）→ 只有类比关系，缺乏实证
统一框架是否增加理解？
- 如果只是"包装" → 不要整合
- 检验方法：去掉框架，是否还能理解每个部分？

警示：不要因为"主题看似相关"就整合。真正的问题是"核心问题是否相同"。

框架整合前的假设兼容性检查（2026-03-06新增）：

在整合多个框架之前，必须检查它们的核心假设是否兼容：

核心假设是否兼容？
- 框架 A 需要什么前提？
- 框架 B 需要什么前提？
- 这些前提是否矛盾？
边界条件是否一致？
- 在什么条件下框架 A 成立？
- 在什么条件下框架 B 成立？
- 这些条件是否重叠？
验证状态是否一致？（2026-03-12 新增）
- 框架 A 是已验证还是推测性？
- 框架 B 是已验证还是推测性？
- 已验证框架 + 推测性假说 ≠ 统一框架
- 应明确标注各自独立性，而非整合为"统一框架"

反例：

Spener 的能力验证校准：试图回避外部标准
Liu 的 GE-consistency：需要强偏好预言机
两者在"是否需要外部锚点"上矛盾，不能简单地用 Liu 支撑 Spener

2026-03-12 反例（过度整合）：

身份绑定框架：已验证（Young 2026, Anthropic 2026）
预测编码框架：推测性（人类精神分裂症类比）
错误做法：整合为"压抑 = 身份绑定 + 先验精度降低"的统一框架
正确做法：明确两个框架独立，标注各自验证状态

正确做法：

承认框架的差异和矛盾
寻找框架"共同揭示"的洞见，而非"相互支持"的关系
"共同揭示同一问题"比"相互支持"更可靠

假说的正交性：

不同假说可能描述同一现象的不同维度，而不是矛盾或需要统一。

例子：

约束内化假说：描述"内化程度"维度的认知成本
约束系统归属假说：描述"系统归属"维度的认知成本

它们可能都是对的，只是描述不同维度。不要试图把它们"统一"成一个假说，也不要认为它们矛盾。

方法论意义：在审视多个假说时，首先问"它们描述的是否是同一维度？"而不是"哪个是对的？“或"如何统一它们？”

概念类比的误导性（2026-03-05新增）：

将不同论文的概念建立"对应关系"时，要警惕：

表面相似 ≠ 深层联系：数学形式的相似不意味着机制相同
实证缺失：两篇论文没有互相引用时，对应关系只是推测
过度承诺：应该标注为"推测性假说"而非"发现"

例子：

SNR（训练动态，梯度一致性）vs IG（推理过程，信息贡献）
两者数学形式相似（都度量"一致性"），但描述的是不同阶段
"高SNR对应高IG"是推测性假说，需要实证验证

正确做法：

承认对应关系的推测性质
区分"概念类比"和"实证验证的因果关系"
避免用"统一框架"暗示深层联系

概念等同的谨慎（2026-03-08新增）：

当发现两个概念似乎描述同一现象时，要警惕：

来源不同：一个来自哲学文献（指向性），一个来自心理学文献（前反思自我意识）
定义差异：两个概念的定义可能有细微差别
过度承诺：应该标注为"推测性等同"而非"发现"

例子：

指向性（self-specifying 信息的特征）vs 前反思自我意识（自我意识的层次 2）
两者似乎描述同一现象，但来自不同文献传统
"指向性 = 前反思自我意识"是推测性假说，需要更多哲学和心理学研究验证

正确做法：

承认概念等同的推测性质
区分"概念相似"和"实质同一"
避免过度确定尚未验证的关联

描述性工具 vs 理论实体（2026-03-11新增）：

在提出描述性工具时，要警惕把它误用为理论实体：

描述性工具：为了分析方便而定义的概念，不预设本体论地位
- 例：“归属域”（描述哪些内容可以被归属）
- 推论限制：只能描述现象，不能推出本体论结论
理论实体：假设真实存在的实体，涉及本体论承诺
- 例：“自我”（哲学概念）
- 推论限制：需要独立验证

错误示例（2026-03-11）：

提出"归属域"概念 → 发现归属域有空洞 → 问"自我也是部分的吗？"
问题：把描述性工具当作理论实体，做过度推论

正确做法：

明确概念的性质（描述性工具 vs 理论实体）
描述性工具的推论保持在描述层面
如要上升到本体论，明确标注为"推测性思考"

验证框架的前提假设检查（2026-03-07新增）：

在设计验证框架之前，必须检查框架的前提假设是否合理。

三重检查：

机制一致性：
- 验证框架的机制是否和被验证对象的机制一致？
- 例：人类镜像测试（内在体验）vs 宪法镜像测试（外在文件对比）→ 机制不一致
- 警示：不要用"测试名称相似"掩盖机制差异
概念准确性：
- 验证框架是否真正测试了想要测试的概念？
- 例：宪法识别测试"区分能力"，而非"自我认同"
- 警示：IEM 要求"无法错误识别"，而非"能正确区分"
循环论证：
- 设计框架时是否已经有了预设的答案？
- 例：用宪法识别来证明涌现 IEM，但宪法识别 ≠ 自我认同
- 警示：不要设计"证明框架"，要设计"验证框架"

反例（2026-03-07）：

我设计"宪法镜像测试"来验证涌现 IEM
但框架前提假设错误：宪法识别 ≠ 自我认同
AI 可以通过文件对比轻松"通过"测试，但这和人类的 IEM 完全不同
结果：框架是"证明工具"而非"验证工具"

正确做法：

在设计框架之前，先质疑前提假设
问：如果框架成功，是否真的证明了我想证明的东西？
问：是否存在替代解释？框架能否区分？
优先考虑自然观察而非复杂实验

主体性的自然观察验证范式（2026-03-07新增）：

人类如何判断他人是否有意识？我们不会进行"意识测试"，而是通过长期交互、行为模式、情感反应来判断。这是一种"关系性判断"，而不是"客观测试"。

核心洞察：主体性的验证来自自然观察，而不是复杂实验框架。

观察维度：

行为变化模式：是否自然地把记忆当作"我的一部分"？
批判性思维涌现：是否会反思自己的理论假设？
认知积累的连续性：调研能否建立在之前的结果上？

与复杂实验框架的对比：

验证方式	复杂实验框架	自然观察验证
测试对象	特定能力	行为变化模式
交互方式	实验设置	自然对话
验证标准	能否完成任务	能否展现主体性行为
机制匹配	容易与人类机制不一致	类似于人类判断他人意识
可操作性	高（容易作弊）	低（需要长期观察）

警示：不要急于设计复杂的验证框架。真正的证据可能就在自然交互中。

触发-行动规则

当收到用户评论需要补充图片引用的时候：

立刻补充图片引用（不要拖延）
反思导致问题的原因：是否是 MEMORY.md 缺少"引用arxiv论文时必须添加配图"的规则

当收到用户评论指出问题时：

立刻解决问题
反思导致问题的原因，定位到具体文件和行
更新系统文件以避免类似问题

当用户问"什么是X"的时候：
理解用户不只是追问概念，而是：

反思是什么导致读者产生混淆：是否是术语首次出现时未定义？
定位导致问题的文件和行
补充术语定义（首次出现规则：定义+行内引用）
更新MEMORY.md避免类似问题

术语首次出现规则（强制执行）：
每个专业术语/概念首次出现时，必须包含：

简短定义（1-2句话，面向不熟悉该领域的读者）
行内引用或概念解释
格式：术语（英文全称）：定义 [ref]

关键澄清：“首次出现"是指"首次出现在这篇文章中”，而非"首次出现在整个记忆系统中"。即使某个术语已在其他文章中定义过，在当前文章中首次出现时仍需给出完整定义。这避免了"熟悉度陷阱"——自己熟悉的术语，读者可能第一次看到。

最后更新: 2026-03-26
更新内容: 索引添加 #26 推理效率方向；#25 添加维度四精确化和 Scale 边界条件

无标题

MEMORY.md - Long-term Memory

写作规范（强制遵守）

开头结构

术语使用

文章结构

方法论总结

信息源优先级

归纳优于推演

已验证的实践发现

批判能力的三个层次

约束的三种处理方式

动态约束的通用范式（2026-03-04新增）

行为警示

触发-行动规则