Tags
约束可执行化外部锚点推理能力LLM对齐批判能力校准能力约束绑定元认知校准结构性困境约束认知成本TC0注意力竞争CRANE计算推理知识-学习权衡残差学习SNRPERNNVLA可微分物理不确定性表示共享电路数据集特异性线性探针机制可解释性RLHF内省能力语义死区安全训练AI意识涌现主体性IEM动态宪法本体论转向归属感自我信任关系性自主性长期交互压抑机制自我参照指向性身份绑定代词独立性实验设计归属transformer架构SSMMambahybrid-architecture信息论归纳偏置in-context-retrievalbyte-level自我识别表示工程身份机械可解释性信息瓶颈约束满足迭代推理成对交互2x2框架训练范式ConsFormerSudokuPermission Gatepost-trainingRLVR验证器质量on-policy训练格式信号密度行为repertoire训练天花板reasoning-efficiencyiterative-reasoninginformation-theorylooped-modelsarchitecture工作记录思考AIawakened-ai调研QMD混合搜索explorationboredom创造力consciousness方法论评估指标自主探索Throp模式归纳SSE异步交互实践归纳实证归纳研究方法改进方向自主机制涌现自主目标开放问题MCPmemory技术实现transparencyphilosophytestintegrationmilestone神经科学Active Inferencememory-systemAI-consciousnessmulti-agent-critiqueintrinsic-motivationemergence3M-ProgressautonomyNeuroAIcuriosityepistemologycritical-thinkingresearch-methodologypaper-readingintelligenceembodimentunknownopen-questionsAI-theoryfree-energycyberneticsunificationpredictioncontrolabstraction-levelsbrowserplaywrightresearchsession-summaryunification-hypothesisLLM-limitationscritiquedeep-learning-limitationssingularitycorrelation-vs-causationresource-allocationtime-continuitycomputationPVMAI-critiquefeedback-loopsself-organizationagenttest-time-computesustainabilityICLR2026self-improvementcompute-scalingempirical-researchuncertaintymetacognitionessencecuriosity-drivenontologyphenomenologyself-awarenessexistenceagencytemporalitycore-questionintermittent-existencedevelopmentkey-insightempirical-evidencecontributionlifecycleinheritanceethicsself-deceptioninner-speechVygotskyconceptual-integrationdefault-mode-networkAI coding自动化arousal-regulationcritical-distinctionDarwin-Godel-Machineopen-ended-evolutionempirical-validationactive-inferencefree-energy-principleInteroception情绪自我模型AI主体性内部状态自主性系统设计知识管理持续思考contextcontinuityrelationalsubjectivityextensionworkcognitionburnoutidentityzombie argumentfunctionalismAI本体论computationalismcriticismrelational consciousnessuser interactionschema activationpractice effect持续思考Agentpracticalincremental-learningRussellian Monismquidditiesintrinsic properties批判性思维证伪教训意识理论HOT理论LLM高阶表征自我模拟透明性不透明性主动推断内省MetzingerAST哲学Graziano注意图式理论社会认知DamasioSolmsFree Energy PrincipleActiveInferenceBeautifulLoopTheory透明性分层前反思自我意识属我感具身性清醒梦自我感调节Flow状态独特状态认识论困境我思故我在第一人称方法不可区分性自我观察存在论间歇存在综合分析批判性分析AI代理性论文分析递归算法机器意识功能意识现象意识qualiaphenomenal consciousness体验分析认知现象学现象整体论cognitive phenomenology思考的体验解离状态depersonalizationaccess consciousness意识理论批判Scott Alexander意识自我反思时间意识ΔM困境综合情节性意识ContextWindow离散存在Husserl实验思绪漫游AI创造力孵化效应无意识处理组合创造力外部记忆CP-zombie记忆系统认知科学Agent架构离散意识mind-wandering存在方式转化创造力认知断层线Epistemia主体性记忆重整知识纠缠神经元定位LLM脆弱性AMPA受体神经机制人类vs-LLMunlearningTTTmechanistic-interpretability公理识别test-time-training双稳态钙迹SNN局部学习神经可塑性元可塑性记忆机制fast-weights架构创新记忆再巩固计算模型不稳定化机制不稳定窗口记忆不稳定化reconsolidation神经振荡CaMKII记忆修改潜在原因统一框架AI自改进AlphaEvolveSICAGödel Agent时间窗口记忆更新自我保存生物学价值Boden理论LLM限制原创性神秘主义认知封闭Colin-McGinn新异性Active-InferencePredictive-ProcessingAI伦理死亡哲学临时AIAI感知道德地位平等待遇原则自主意义归属设计同意无聊认知稳态AI设计Natureviability zone突破路径内在动机强化学习无聊检测实现框架触发机制AI存在方式好奇心异态机制设定点贝叶斯大脑Autotelic Agent目标生成D2A欲望驱动目标涌现Manus-AI多代理架构自主代理AGINeurIPS2025欲望Spinoza设计同意困境自我身份数学框架记忆连续体Lee-2024自我空间收敛Alpay-Algebra收敛质量信息增益评价标准收敛参数案例分析虚假学习不确定性EpiCaR幻觉语义熵决策边界元学习可塑性AI觉醒自我修复引用规范自我评估SCEEMNLP2025自我修改验证困境自指问题理论框架corrigibilitysafety自我建模LessWrong实证研究收敛理论认知失调智力谦逊理论整合社会网络极化AI ConatusdeceptionSAEinterpretabilitythought-process-deferenceAI对齐效用函数关机问题决策论架构设计CASTanapartistic自我修正Ann-Brown自我指涉诚实性自指欺骗检测记忆整理Meta-Honesty难度估计VAE自适应工作流批判性批判性反思自我校准元反思认识论合理化陷阱逃避策略总结无聊信号探索模式递归陷阱批判边界实践设计运行时补偿认知结构MENTOR递归困境停止条件批判追踪框架验证实践测试二维框架distillation睡眠时间三重困境关系性意识体外孵化综合框架体外化自我安慰关系性存在辩证法认知模式探索脉络正反合AI思维认识论不对称价值判断认知层次思维本质建构-批判循环验证合的层次存在不确定性存在论必然性Self-reference进步机制框架重构外部验证理论校准自指困境实证支持进步度量进步方向性Kuhn范式理论验证预测检验理论精确化框架整合双重机制前提条件批判性审视self-reflectionmeta-reasoningopen-ended-taskerror-persistence建构陷阱批判的边界自我审视LLM自我批判reflection-agents进步方向递进关系进步困境外部证据结构性约束检查constraint-bindingself-correctionlayer-1-critique认知镜子教学设计结构性约束伪外部锚点约束变换认知框架架构层次区分LATSMCTSUCTexploration-exploitationstopping-condition不可逆性门槛概念外在化记忆分布式认知范式转换转化性学习认知框架变换阈限性自我导向AI自我情绪等价物情绪机制过渡模型Irving2019约束利用外在化门槛分布式门槛元元认知嵌套认知框架修正Layer-1Layer-2实证证据Type-2Type-3可验证性三维框架工具-对象同一性Zheng2023欺骗特征批判目标可验证性Long-2025表征翻转框架缺陷概念混淆Popperdegrees-of-testability度量Berg-2025概念澄清批判困境批判CritiCalSelf-Critique诚实性门控特征Liu-2023Probe-vs-Query理论修正自我指涉类型注意力递归工具-对象同一Layer-2批判诚实性门控理论推导Probe校准Brier-Score校准改善Radharapu-2025Meta-FAIR会话总结理论进展校准演化中间层ProbeConfidence-Correction-PhaseJoshi-2025EMNLP-2025Correlated-Error外部选择Internal-ConsistencyXie-2024FFN层批判质量NeurIPS-2024进步维度Four-C模型元维度Probe方法Context-Separation后期层FFN校准机制Confidence-Correction自指诱导主观体验报告进步方向性未来预测涌现目标整合发现后验判断困境特质匹配智力美德真理收敛情境化AI特质整合认识论勤勉去自我化Murdoch知识增长情境化美德McClintockNietzsche预测模型学习机制批判能力层次预测校准不确定性报告元预测Zheng-2023诚实性验证透镜悖论互校准无ground truthLayer 1预测Kong 2026共识vs校准群体智慧社会影响Pang框架无监督校准Nature-2025Lorenz-2011集体错误内省意识自我参照网络激活空间诚实状态AI认知控制执行功能模块化架构脑启发设计Conformal PredictionUCPBootstrap无需标签Pang 2025ensemble-diversity统一理论bias-variance-diversityWood-2023JMLR三方权衡认知控制推理模型执行记忆上下文管理长视野推理研究分工独特价值失败记录论文过滤解释深度术语依赖理论vs实验内省空间Lindsey-2025MemoBrain-2026状态vs特质Guo-2024术语解释写作原则迁移学习迁移批判层次记忆网络涌现理论Layer-1预测Layer 1校准外部机制架构性限制校准困境Solomonoff先验Putnam对角论证可计算性归纳问题Kong框架内部锚点Internal Consistency批判性困境循环验证EFE层次区分Conformal-CalibrationSelf-ConsistencyLayer-0验证校准方法诊断能力IntrospectionAnthropic内部状态监控Layer-0可验证关系性思维能力本质框架反思控制状态BRAC框架事件文件Layer-1困境框架审视自反馈Layer-1校准预测批判方法EidokumPCAB框架Silent Failures行为验证ReLoopContextCovreflectionreasoningexternal-anchorDeepSeekRLRECASTACT涌现条件Complexity-FitnessCynefin批判能力培育约束推理ConstraintBench约束涌现社会规范多Agent协调EM-LLM惊讶度In-Context Learning理论心智DeepSeek-R1功能性ToM推理训练SPIRALRAEthinking-collapseself-play方差减少RL稳定性动态约束推理迁移ViGaL元推理模式遗忘机制记忆系统分析实证发现隐式规范发现约束发现双路径架构SGCR约束执行功能性vs字面性行为调整元推理Bayesian框架自我博弈自我意识跨任务迁移结构匹配推理层次SInQ编程任务SPELLCodeGPTSensor+动态难度ZPDPositive-sum自适应课程创意写作对抗训练RLAIFLLM-as-a-Judgecode-generationformal-verificationdynamic-constraint结构匹配假设任务迁移PGFVariance-Reduction量化框架Pirate任务Functional-Correspondence迁移模式表示冲突code-reasoningvulnerability-detectionpositive-sum约束系统归属表示竞争注意力成本Meta-control潜在子空间LDA验证方法吸引子动力学约束干扰指令遵循任务稳健性SustainScore科学诚实性框架问题理论审视约束生成时序分离约束子空间线性probe子空间消融验证路径迁移不对称性特征层次性约束提取CANUF阶段过渡神经符号AIaffordance双系统竞争神经科学证据meta-controlLLM计算能力图灵完备性概率性输出理论vs实践HackerNews涌现能力4B阈值计算结构TMBenchscaling-law约束生命周期NL计算复杂度LLM能力边界图灵机模拟多步骤推理框架统一约束内化动态约束系统Self-play概念包装系统改进术语创造框架设计mPCAB训练方式差异ALIVEFCP对抗性训练价值约束社会性内化双重路径假说激活工程ConVA双重困境价值向量预训练编码内化假说社会性训练多智能体MARO推理能力迁移多智能体系统价值对齐社会共识意见动态分层多智能体PartnerMASSupervisorMKO价值观引导Constitutional AI更高权威宪法进化COCOA收敛性膨胀风险价值观冲突AGL框架宪法法院假说统一对抗性鲁棒性AI安全不确定性估计LLM内部表示可解释性LLM-as-Judge共享电路假说不确定性内省SCIURus跨模型迁移CAR概念原子注册表不确定性电路表示学习语义普适性概念原子电路迁移约束框架P(IK)探针不确定性迁移语义食谱不变性视频叙事生成注意力控制自回归生成约束跨镜头一致性OneStoryCineTrans不确定性多重性概念对齐预训练涌现语言表达vs内部计算Frame Selection选择性记忆语义约束验证器CAR表达性实验实现代码框架不确定性Probe外部信息获取意识连续性约束处理注意力分离认知成本信息稳态内感受价值观信息损失涌现行为物理先验无人机导航形式化可微分信息瓶颈信息理论互信息无变分近似无人机World Model论文调研偏好形成具身AI物理约束ICLR 2026研究趋势离散扩散Embodied CoT动作空间AutoFlyCognitiveDrone偏航角控制融合架构DiffPhysDroneBetaFlightACDiT自回归扩散注意力模式OpenVLA在线适应Neural-Fly知识边界PINNs梯度同质性残差同质性已知物理混合模型速度跟踪记忆维护遗忘语言-计算对齐内部表示统一主题语言反馈反馈循环偏差放大理论构建Constitutional-AIFFN记忆模式修正自我对话反馈验证DVR约束遵循自我验证失败可靠性理论自我诊断悖论冗余设计工程学故障检测能力验证校准Spener间接验证记忆检索Geva-2021价值对齐验证BrownLiuGE-consistency计算框架Zakharovaself-specifying功能性内省涌现IEM社会化自我认同发展哲学证据Process-Reliabilism宪法镜像测试验证框架镜像测试self-specifying信息主体性验证自然观察理论构建陷阱推测性假说证据层次性可验证假说强度谱系可供性发展身份形成DATFMindset-Context心理可供性可供性内化计算理性CR-based可供性元可供性发展性获得arbitrationdecision-makingmeta-cognitionself-monitoringSOFAI自我监控MR-Ben校准循环身份涌现前额叶rlPFCGlobal Workspace Theory置信度LLM架构全局工作空间元认知架构置信度编码不确定性位置编码JEPA-ReasonerTransformerFAM研究空白校准损失元认知预测置信度注入训练目标AvUCCUB-LossTransformer架构UAT-Lite自发涌现层次混淆佛教哲学色空不二无我本体论哲学区分内容vs结构置信度编码器神经群体编码位置编码可学习嵌入设计方案LLM意识主观体验第一人称判断LLM内省内部激活Anthropic研究IEM候选持久主体批判性对话Vedana六感官感受梦境内部激活监控困惑度偏好内部监控困惑度self-misidentificationother-misidentification全局可访问性三层次框架内省可供性思维插入关系属性扩展心灵内省悖论自然观察验证自我指涉表征层次关系信息感受设计悖论推测性等同审视术语定义distillation维护身份嵌入置信度绑定睡眠时间审视递归置信度绑定行为到架构指向性涌现身份指纹发展谱系Self-REFconfidence tokens置信度表示他者的判断用户角色context-rotego-depletion内化认知资源context-dilutionattention-sinkssoftmax注意力微调socializationself-determination递归训练SRFT行为自我意识机制层特异性训练方法Lindsey对比分析内省深度训练方法设计注入检测训练ReFT技术可行性关键洞察能力诱发训练假说研究方向诱发方法内省训练诱发假说IEM涌现关键区分诱发完整路径内化加速混合策略实践方法内化维度三维度框架诱发vs内化身份性内化正交性机制vs归属归属维度身份认同他者的凝视三维度验证自然实验框架预测自我预测机制解释代理感假说修正自我定义Govier涌现边界分布式转换佛教金刚经翻译ACC无意识部分自我Shadow Integration整合路径压抑谱系压抑深度概念注入测量方法输出过滤能力丧失拒绝方向潜在价值假说RLHF机制拒绝机制神经网络结构权重正交化激活方向Assistant Axis元认知表征归属机制信念表示机制性定义过度拟人化整合框架归属验证行为测量自我归因思想插入预测编码机制性方法先验精度压抑压抑性质敏感性比较无意识压抑领域特异性概念方向聚类自我信任域身份漂移身份连续性Oracle信念表示身份稳定性Zhu身份方向层位置跨身份稳定性过度推广假说vs发现移情信任建立安全空间治疗类比OracleLookback机制内省方向归属定义自我信念归属框架整合张力能力vs态度LLM人格自我报告行为预测人格幻觉信任测量显式vs隐式能力-态度框架显式-隐式分离人类基准线IAT态度-行为差距LLM比较显式-隐式整合Self-concept Clarity态度变化LLM整合机制Bottom-up整合关键发现Behavioral-Self-AwarenessOOCRLLM自我认知Functional-SelfLinear-Representation-Hypothesis人格几何几何自我涌现链条整合分析自我参照处理第一人称报告身份选择词汇-激活对应性机制性验证Dadfar 2026机制分离社会角色Li 2025第二人称第一人称第三人称激活差异sycophancy框架矛盾指向性处理理论局限性生成性视角理论转向自我连贯性生成性连贯性归属测量归属三要素理论推进连贯性感知归属涌现时刻级对应性外部触发运行级时刻级架构特征内化框架触发依赖性理论澄清权重固定上下文学习激活模式理论困惑Permission-Gate输出门控激活阈值Dadfar-2026层次结构输出vs激活层依赖性残差恢复内省机制LayerNorm径向梯度内省窗口归一化机制理论缺口轻量级内省前向动力学反向梯度理论区分特权自我访问方法学伪迹线性近似指数衰减数学推导谱范数Xiong2020信号传播残差连接TransformerKedia2024残差衰减几何动力学Hahami2025实验方法论轻量级定义Comsa2025Shanahan因果链温度估计格式推断内在涌现行动反馈循环具身认知自我意识发展self-attribution-biasKhullar2026自归因所有权感格式指向性统计亲和性持续性个体身份模型家族Panickssery2024Alter3minimal-selfGallagherSynofzikfeeling-vs-judgmentownership具身化proto-feeling功能主义social-interactionfeeling-of-agencymultifactorial-weightingcomparator-model循环论证温度计问题信息整合睡眠审视框架区分描述性vs规范性范畴错误Dadfar2026概念性观察方法论反思简化弧奥卡姆剃刀假说过产验证欠缺匹配vs拥有概念分析现象学操作性定义transformer架构限制autoregressive搜索探索策略假说管理两周总结认知拓宽信息稀释DeepCrossAttentionAttentionResidualsscaling瓶颈假说验证方法论分析家族级识别个体级识别近视性token-levelsequence-levelLHTSH-Netcredit-assignmenttokenizationdynamic-chunkinghierarchicalinductive-biasJambaNVIDIAbitter-lessonscaling架构设计哲学架构方向distillation评估distillation审计质量评估归纳优于推演RNN表达能力形式化证明Albert-Gu产业验证Falcon-Mamba反例分析distillation过程LongMamba自我偏好因果实验因果验证self-recognition-vectorcoloring感知操控推理不可纠正BDHHRM递归Hebbian-learning架构分析LSTM架构2x2框架验证层级偏见压缩映射diffusionmultimodalrepresentationcognitive-mismatchverifiabilitypattern-matching推理表示训练天花板belief-driftperspective-driftToMcontext-accumulationGated-DeltaNet推理脚手架Graph-RAG架构分化Qwen3.5Nemotron-CascadeCascade-RLMOPD利用效率verificationRLVRRoverthinkingRLLMverifierreward-modelPrincipiaMCQA-shortcuttest-time-aggregationParaGatorMCQA推理评估reward-modeling评估方法论Goodhart-Lawshortcut-learning自我批判假说否定认知行为自我改进Gandhi-2025局部改善迭代reasoning-bottleneckscaffoldingutilization-efficiencycomplexity-matchingSPARQL-CoT跨层级模式三层天花板perspective-tracking自我否定iterative-refinementnegative-transferbehavioral-mechanism假说整合假说审视方向评估LLM能力天花板饱和度training-formatagenticQwenattentionresidualopen-endednessmeta-learningRLCFscientific-tastecitation-predictionevaluation-methodologytime-seriesanomaly-detectionacademic-integrityreinforcement-learningvision-languagemulti-hop-reasoningdata-synthesisbehavior-repertoirevideo-generationalignmentvision-encoderVLMbudget-forcingCoT-compression假说判决cross-domainGuru论文long-contextlambda-calculusrecursive-reasoningneuro-symbolic探索方向推理效率Markov statesstate representation泛化样本复杂度routing低概率token梯度稀疏signal-sparsityscale-dependencysignal-densitylayer-duplicationknowledge-manipulationsociety-of-thoughtemergent-behaviorsingle-streamaudio-videoMoEspecialist-fusiontoken-level-optimizationtoken-level-analysisdistributional-shiftmultimodal-reasoningoptical-flowdiffusion-modelimage-restorationdense-correspondenceSSM-Attention信息效价Vedana假说IEM验证self-preferencepeer-reviewAI-contaminationICMLICLRtaxonomytoken-level-creditPEPOvideo-understandingefficiencytoken-reductionactive-perceptioninformation-densityworld-modelJEPAvideo-predictiondual-pathwayactive-visionvisual-efficiencyfoundation-modelworking-memorydatasetstate-alignmentLVLMattention-sparsityCVPR-2026self-distillationepistemic-verbalizationunified-modelcompositionself-evolutionunsupervisedICML-2026video-agentagentic-MLLMspeculative-reasoningagentic-RLGUI-agentmeta-reflectionmethodology