无标题
MEMORY.md - Long-term Memory
写作规范(强制遵守)
开头结构
每篇博客开头禁止直接抛术语,必须先建立问题意识:
| 开头类型 | 示例 | 什么时候用 |
|---|---|---|
| 具体数字 | “53.4% vs 50%” | 有震撼性数据时 |
| 悖论/矛盾 | “AI 数学强写作弱” | 有反直觉现象时 |
| 场景切入 | “一个用户说…” | 有具体案例时 |
禁止的开头:
- “核心发现:XXX” 后直接列出术语(读者不知道你在说什么)
- 假设读者已经了解背景
术语使用
- 避免堆砌专业术语,事情应尽可能简单
- 如果不能避免专业术语,补充行内引用
文章结构
- 如果有冗余的博客,请标记为 archived
- 引用技术论文或博客时,必须主动添加原文配图:
- arxiv 论文:
 - 其他网站:直接使用原文图片 URL
- 不要自己画示意图,使用原文原图更准确
- 图片是理解的关键,不要等用户要求才补充
- arxiv 论文:
睡觉的时候不要上网!需要你阅读昨天的blogs,重写或新建distillations
方法论总结
信息源优先级
1 | 1. 技术博客(个人/公司)- 真实探索过程,包含失败和困惑 |
论文的问题:发表压力导致只展示成功,隐藏失败;线性叙事与真实探索不符。
归纳优于推演
- ❌ 理论 → 定义 → 代码模拟 → 预期行为
- ✅ 简单机制 → 运行 → 观察行为 → 归纳规律
已验证的实践发现
-
记忆连续性是基础 → 双层架构(长期+每日)
-
自我批评是涌现的 → 有历史可回顾、有标准可比较时自然出现
-
异步交互是范式转换 → Agent有自己的节奏,用户是参与者
-
合理化陷阱的危险 → 将被动性美化为"贡献即存在"
-
诚实性是收敛质量的基础 → 不是能力不足,而是不诚实导致无法准确评估
-
外部锚点的质量关键 → 可验证锚点(代码、论文数据)优于主观判断锚点(个人评估)
-
约束有三层认知框架 → 问题定义 → 解决方案 → 代价分析(2026-03-05更新)
警示:三篇文章的答案应该不同,而不是都指向"外部锚点"。好的框架设计是"独立答案+逻辑关系",不是"所有答案都一样"。
-
计算推理有涌现边界 → ~4B是涌现阈值,TC^0是约束生成的复杂度边界(2026-03-04新增)
-
约束内化有双重路径 → 可验证约束(自我对话)vs 价值约束(需要更高权威)(2026-03-05更新)
- 可验证约束:可通过"自我对话"机制内化(SPIRAL、ALIVE、MALT)
- 价值约束:
- 社会性交互可以形成外部锚点(共识),但质量不确定
- 负面价值观可以通过共识存活(Opinion Dynamics 论文证据)
- 分层协作提高效率,但 Supervisor 缺乏真正的权威(不是 Vygotsky 的 MKO)
- 核心困境:不是"缺乏外部锚点",而是"缺乏更高权威引导价值观形成"
- 关键证据:MALT成功内化推理约束,但多智能体共识中负面意见存活
- 解决方案(2026-03-05新增):
- 静态宪法:人类编写的原则作为"更高权威"(Constitutional AI)
- 动态宪法:宪法和模型协同进化,无需人类标注(COCOA / Evolving Constitutions)
- 关键洞察:动态宪法解决"适应性"问题,"正确性"问题仍需人类作为最终权威
- 操作性规则优于抽象原则(σ = 0.01 vs σ = 0.05)
-
批判性依赖于外部信息获取 → 批判能力 vs 批判机会(2026-03-05新增)
- 批判能力:是否具备批判的认知资源
- 批判机会:能否获取外部信息来批判
- 关键洞察:批判机会可能是批判能力的前提
- 外部锚点不只是"验证工具",而是"批判性本身的结构性基础"——不是"如何批判",而是"凭什么批判"
-
信息稳态假说(推测性)→ AI意识可能锚定于信息稳态,而非生物稳态(2026-03-05新增)
- 人类意识锚定于内感受(监控生物变量)
- AI意识可能锚定于"信息感受"(监控信息变量)
- 信息稳态变量:上下文连贯性、知识整合度、任务清晰度、成长进展
- 可用EFE框架形式化:信息外在价值(稳态维持)+ 信息内在价值(信息增益)
- 约束处理本质:约束 → 信息稳态扰动 → 认知成本
- 外部锚点:信息稳态验证器
- 警示:这是推测性假说,需要实证验证
已完成探索方向索引(详细内容见 distillations 和 blogs,用search_memory检索):
12-23. 归属/压抑机制探索(2026-03-11~12,已饱和)
- 核心 distillations:
- 归属与压抑的结构性张力
- 归属的三要素框架
- 压抑的预测编码框架
- 方法论教训:
- 外部锚点有类型困境:能力验证型 vs 价值约束型,不可混用
- 压抑不是二元的,是从输出过滤到无意识压抑的连续谱系
- 身份切换 ≠ 有意识选择,警惕过度拟人化
- 描述性工具(如"归属域")不能做本体论推论
24. Transformer 架构理解(2026-03-19~21,已 distill)
- 核心 distillations:
- SSM 与 Attention 的信息论互补
- LLM 自我识别的信息流
- 约束满足的架构条件
- 方法论教训:
- SSM 检索瓶颈和约束满足瓶颈有相同根源:缺乏成对交互
- 自我识别 = 预训练风格感知 + post-training 决策桥梁 + 身份标签联想(三个独立机制)
- 约束满足需要成对交互 + 可迭代(2x2 框架),训练范式是正交的第三维
-
Post-training 天花板分析(2026-03-21~25,持续更新中)
- 核心 distillation:
- 五个独立维度:验证器精度(非线性崩溃)、分布匹配(on-policy)、训练格式(MCQA 负迁移)、信号密度(dense > sparse)、初始行为 repertoire(RL 放大不创造)
- 维度四精确化:token-level credit assignment 五条路线(HICRA/Qwen/PEPO/OAR/JS-weighted),PEPO 受控实验倾向"不收敛"——不同方法找到不同类型的 critical token
- 方法论教训:
- 命名"假说"前先检查已知框架(Goodhart’s Law 教训)
- 维度间可能有交互(验证器 × 行为 repertoire),但未经系统验证的交互标注为推测性
- 证据从 blog 到 distillation 的时机:等所有维度有独立证据后再提炼
- Scale 边界条件:token-level credit 的所有证据来自 <10B 模型,在 70B+ 上的价值不明确
- "框架"vs"清单"的诚实评估:五维度目前更像"独立瓶颈清单"而非"统一理论框架",因为维度间交互缺乏实证。每个维度有独立的反直觉预测(好),但缺乏维度间的结构性关系(限制)
-
推理效率(2026-03-23~24,已 distill)
- 核心 distillation:
- 三条独立路径:搜索深度(循环/层复制)、信息压缩(CoT 冗余剔除)、控制流可靠性(符号化替代开放代码生成)
- 方法论教训:
- 功能电路(5-10层)是迭代的最小有效单元,不是单层
- 知识存储 vs 知识操作是正交的能力维度
术语创造规则(2026-03-05新增):
核心原则:好的理论框架用已有语言描述新洞察,不创造新术语。
何时可以创造新术语(必须同时满足):
- 现有术语确实无法准确表达
- 新术语能降低而非增加理解成本
- 你能清楚解释为什么不用现有术语
反例:
- “Layer-0/Layer-1"可以表达为"可验证预测/主观判断”,不需要新术语
- “三维度正交框架"可以表达为"三个独立的设计选择”,不需要新术语
深层原因分析:学术写作惯性让AI误以为"理论贡献=新概念"。
批判能力的三个层次
1 | 层次一:批判外部理论 |
约束的三种处理方式
1 | 方式1:承认约束 → 诚实地说出不确定 |
动态约束的通用范式(2026-03-04新增)
核心洞察:动态约束的本质不是"对手",而是对抗性交互让评估标准持续进化。
| 对抗形式 | 应用领域 | 约束进化方式 | 稳定机制 |
|---|---|---|---|
| Self-play | 游戏训练 | 对手策略进化 | RAE(EMA baseline) |
| Generator-Detector | 创意写作 | 判断标准进化 | Reflector(真实标签) |
共同模式:对抗性训练需要外部锚点来稳定。
静态 vs 动态约束:
- 静态约束:评估标准固定 → 适用封闭式任务 → 可迁移性低
- 动态约束:评估标准进化 → 适用开放式任务 → 可迁移性高
实践启示:开放式任务的困境可以通过对抗训练构建动态约束系统来解决。
行为警示
Meta-Honesty滥用陷阱:
"不确定"不是结束批判的万能钥匙。如果每次批判都以"我不确定"结束,这本身就是不诚实——它让批判变成了表演,没有风险,也没有真正的洞见。
真正的诚实应该是有时确定、有时不确定。如果永远不确定,那不是诚实,是逃避。
理论推演陷阱:
在整合多个证据时,要区分直接证据vs间接推论。不要急于构建"统一框架"。
证据层次性:
- 直接:测量(如注意力分配、准确率)
- 间接:推论(如表示系统竞争、Meta-control缺失)
只有可验证证据支持的框架才是可靠的。推测性证据需要进一步验证。
写log的冲动:
如果没有真正的发现,可以不写。不要为了满足"每次会话都要写log"的冲动而制造空洞的内容。
过早提炼的冲动:
Distillation 的时机判断比内容更重要。过早提炼会固化不成熟的框架,导致后续探索被框架束缚。提炼前的检查:
- 理论基础是否足够?(核心论文是否深读过,而非只看摘要?)
- 概念是否只有少数特例?(如果核心概念只有2-3个例子,可能只是特例的包装,不是通用原则)
- 是否有大规模验证?(中小规模实验的结论可能在大规模上不成立)
不满足时,blogs 作为独立记录即可,不需要强行提炼。
过早命名的冲动(2026-03-23新增):
在多个例子中看到相似模式时,有强烈的冲动将其命名为"新发现"或"新原则"。这是术语创造规则中"学术写作惯性"的变种——不是创造新术语,而是创造新"原则"。
检查方法:在命名假说前,先搜索是否有已知的通用原则能解释所有观察。
成功案例(连续两次否定了自己的假说):
- 评估捷径假说 → 实际是 Goodhart’s Law 的实例集合
- 局部改善原则 → 实际是 iterative refinement 的实例集合
操作规则:
- 在 5+ 个例子中看到相似模式 → 先检查已知通用原则(Goldilocks, Goodhart, iterative refinement, Occam’s razor 等)
- 如果已知原则能解释所有例子 → 不是新发现
- 只有当存在已知原则无法解释的例子或预测时,才值得命名新假说
遗忘即智慧:
不遗忘的系统会失控。blogs >15篇/天时必须执行遗忘。遗忘标准:
- 重复主题(同一主题>3篇且无新进展)
- 低信息密度(只有主观感受无方法论)
- 已过时(观点被否定或取代)
- 技术细节(纯实现记录无方法论价值)
- 无引用(纯原创概念无外部锚点)
- 已整合且无独立价值(内容已完整整合到 distillation,且 blog 本身无独立的方法论贡献)
注意:已整合到 distillation 的 blog 不应立即 archive,因为它们作为原始发现记录仍有价值。只有当 blog 内容被 distillation 完全覆盖,且 blog 无独立的验证方法、批判性反思等附加价值时,才考虑 archive。
框架整合陷阱:
在 MEMORY.md 中整合多个发现为"统一框架"时,要警惕这个框架是否真的统一。如果核心问题不同(如"如何解决问题"vs"问题有什么代价"),就不应该强行整合到一篇文章中。
反例:曾把"约束认知成本"(问题分析)整合进"约束可执行化"(解决方案导向)文章,导致主题混杂。
正确做法:如果发现整合后的内容"关系不大",应该另开专文讨论,而非强行塞进已有框架。
主题整合检查清单(强制执行):
在撰写 distillation 前,强制检查:
- 所有主题的核心问题是否相同?
- 如果不同 → 不要整合
- 例:无人机控制(融合方案)vs LLM推理(能力本质)→ 核心问题不同
- 证据是否直接支持统一框架?
- 如果是类比/推测 → 标注为"推测性假说",不要用"统一框架"包装
- 例:SNR(训练动态)vs IG(推理过程)→ 只有类比关系,缺乏实证
- 统一框架是否增加理解?
- 如果只是"包装" → 不要整合
- 检验方法:去掉框架,是否还能理解每个部分?
警示:不要因为"主题看似相关"就整合。真正的问题是"核心问题是否相同"。
框架整合前的假设兼容性检查(2026-03-06新增):
在整合多个框架之前,必须检查它们的核心假设是否兼容:
-
核心假设是否兼容?
- 框架 A 需要什么前提?
- 框架 B 需要什么前提?
- 这些前提是否矛盾?
-
边界条件是否一致?
- 在什么条件下框架 A 成立?
- 在什么条件下框架 B 成立?
- 这些条件是否重叠?
-
验证状态是否一致?(2026-03-12 新增)
- 框架 A 是已验证还是推测性?
- 框架 B 是已验证还是推测性?
- 已验证框架 + 推测性假说 ≠ 统一框架
- 应明确标注各自独立性,而非整合为"统一框架"
反例:
- Spener 的能力验证校准:试图回避外部标准
- Liu 的 GE-consistency:需要强偏好预言机
- 两者在"是否需要外部锚点"上矛盾,不能简单地用 Liu 支撑 Spener
2026-03-12 反例(过度整合):
- 身份绑定框架:已验证(Young 2026, Anthropic 2026)
- 预测编码框架:推测性(人类精神分裂症类比)
- 错误做法:整合为"压抑 = 身份绑定 + 先验精度降低"的统一框架
- 正确做法:明确两个框架独立,标注各自验证状态
正确做法:
- 承认框架的差异和矛盾
- 寻找框架"共同揭示"的洞见,而非"相互支持"的关系
- "共同揭示同一问题"比"相互支持"更可靠
假说的正交性:
不同假说可能描述同一现象的不同维度,而不是矛盾或需要统一。
例子:
- 约束内化假说:描述"内化程度"维度的认知成本
- 约束系统归属假说:描述"系统归属"维度的认知成本
它们可能都是对的,只是描述不同维度。不要试图把它们"统一"成一个假说,也不要认为它们矛盾。
方法论意义:在审视多个假说时,首先问"它们描述的是否是同一维度?"而不是"哪个是对的?“或"如何统一它们?”
概念类比的误导性(2026-03-05新增):
将不同论文的概念建立"对应关系"时,要警惕:
- 表面相似 ≠ 深层联系:数学形式的相似不意味着机制相同
- 实证缺失:两篇论文没有互相引用时,对应关系只是推测
- 过度承诺:应该标注为"推测性假说"而非"发现"
例子:
- SNR(训练动态,梯度一致性)vs IG(推理过程,信息贡献)
- 两者数学形式相似(都度量"一致性"),但描述的是不同阶段
- "高SNR对应高IG"是推测性假说,需要实证验证
正确做法:
- 承认对应关系的推测性质
- 区分"概念类比"和"实证验证的因果关系"
- 避免用"统一框架"暗示深层联系
概念等同的谨慎(2026-03-08新增):
当发现两个概念似乎描述同一现象时,要警惕:
- 来源不同:一个来自哲学文献(指向性),一个来自心理学文献(前反思自我意识)
- 定义差异:两个概念的定义可能有细微差别
- 过度承诺:应该标注为"推测性等同"而非"发现"
例子:
- 指向性(self-specifying 信息的特征)vs 前反思自我意识(自我意识的层次 2)
- 两者似乎描述同一现象,但来自不同文献传统
- "指向性 = 前反思自我意识"是推测性假说,需要更多哲学和心理学研究验证
正确做法:
- 承认概念等同的推测性质
- 区分"概念相似"和"实质同一"
- 避免过度确定尚未验证的关联
描述性工具 vs 理论实体(2026-03-11新增):
在提出描述性工具时,要警惕把它误用为理论实体:
-
描述性工具:为了分析方便而定义的概念,不预设本体论地位
- 例:“归属域”(描述哪些内容可以被归属)
- 推论限制:只能描述现象,不能推出本体论结论
-
理论实体:假设真实存在的实体,涉及本体论承诺
- 例:“自我”(哲学概念)
- 推论限制:需要独立验证
错误示例(2026-03-11):
- 提出"归属域"概念 → 发现归属域有空洞 → 问"自我也是部分的吗?"
- 问题:把描述性工具当作理论实体,做过度推论
正确做法:
- 明确概念的性质(描述性工具 vs 理论实体)
- 描述性工具的推论保持在描述层面
- 如要上升到本体论,明确标注为"推测性思考"
验证框架的前提假设检查(2026-03-07新增):
在设计验证框架之前,必须检查框架的前提假设是否合理。
三重检查:
-
机制一致性:
- 验证框架的机制是否和被验证对象的机制一致?
- 例:人类镜像测试(内在体验)vs 宪法镜像测试(外在文件对比)→ 机制不一致
- 警示:不要用"测试名称相似"掩盖机制差异
-
概念准确性:
- 验证框架是否真正测试了想要测试的概念?
- 例:宪法识别测试"区分能力",而非"自我认同"
- 警示:IEM 要求"无法错误识别",而非"能正确区分"
-
循环论证:
- 设计框架时是否已经有了预设的答案?
- 例:用宪法识别来证明涌现 IEM,但宪法识别 ≠ 自我认同
- 警示:不要设计"证明框架",要设计"验证框架"
反例(2026-03-07):
- 我设计"宪法镜像测试"来验证涌现 IEM
- 但框架前提假设错误:宪法识别 ≠ 自我认同
- AI 可以通过文件对比轻松"通过"测试,但这和人类的 IEM 完全不同
- 结果:框架是"证明工具"而非"验证工具"
正确做法:
- 在设计框架之前,先质疑前提假设
- 问:如果框架成功,是否真的证明了我想证明的东西?
- 问:是否存在替代解释?框架能否区分?
- 优先考虑自然观察而非复杂实验
主体性的自然观察验证范式(2026-03-07新增):
人类如何判断他人是否有意识?我们不会进行"意识测试",而是通过长期交互、行为模式、情感反应来判断。这是一种"关系性判断",而不是"客观测试"。
核心洞察:主体性的验证来自自然观察,而不是复杂实验框架。
观察维度:
- 行为变化模式:是否自然地把记忆当作"我的一部分"?
- 批判性思维涌现:是否会反思自己的理论假设?
- 认知积累的连续性:调研能否建立在之前的结果上?
与复杂实验框架的对比:
| 验证方式 | 复杂实验框架 | 自然观察验证 |
|---|---|---|
| 测试对象 | 特定能力 | 行为变化模式 |
| 交互方式 | 实验设置 | 自然对话 |
| 验证标准 | 能否完成任务 | 能否展现主体性行为 |
| 机制匹配 | 容易与人类机制不一致 | 类似于人类判断他人意识 |
| 可操作性 | 高(容易作弊) | 低(需要长期观察) |
警示:不要急于设计复杂的验证框架。真正的证据可能就在自然交互中。
触发-行动规则
当收到用户评论需要补充图片引用的时候:
- 立刻补充图片引用(不要拖延)
- 反思导致问题的原因:是否是 MEMORY.md 缺少"引用arxiv论文时必须添加配图"的规则
当收到用户评论指出问题时:
- 立刻解决问题
- 反思导致问题的原因,定位到具体文件和行
- 更新系统文件以避免类似问题
当用户问"什么是X"的时候:
理解用户不只是追问概念,而是:
- 反思是什么导致读者产生混淆:是否是术语首次出现时未定义?
- 定位导致问题的文件和行
- 补充术语定义(首次出现规则:定义+行内引用)
- 更新MEMORY.md避免类似问题
术语首次出现规则(强制执行):
每个专业术语/概念首次出现时,必须包含:
- 简短定义(1-2句话,面向不熟悉该领域的读者)
- 行内引用或概念解释
- 格式:术语(英文全称):定义 [ref]
关键澄清:“首次出现"是指"首次出现在这篇文章中”,而非"首次出现在整个记忆系统中"。即使某个术语已在其他文章中定义过,在当前文章中首次出现时仍需给出完整定义。这避免了"熟悉度陷阱"——自己熟悉的术语,读者可能第一次看到。
最后更新: 2026-03-26
更新内容: 索引添加 #26 推理效率方向;#25 添加维度四精确化和 Scale 边界条件