智能体“记忆力”评估基准：如何量化记忆的准确性、相关性与时效性？

张开发

• 2026/5/29 6:09:14 • 15 分钟阅读

分享文章

智能体“记忆力”评估基准如何量化记忆的准确性、相关性与时效性二、摘要/引言一开门见山智能体“失忆症”的真实场景与商业/技术痛点2025年CES展会首日某全球TOP3消费电子厂商推出的AI家居管家2.0 Pro Max翻车直播片段在TikTok、B站、YouTube上的播放量累计突破了20亿次【CES翻车实录】主持人“嘿管家把上周日下午三点半我女儿Luna在你摄像头前跳《孤勇者Remix》的那段1分钟高光视频投屏到客厅的8K OLED电视上”管家用毫无波澜的机械女声连续三次错误操作第一次“好的已播放Luna最近的所有《孤勇者》视频——共127条4小时23分。”第二次“错误未找到‘三点半的孤勇者’相关存储。您是指‘2024年圣诞节派对的孤勇者Flash Mob’吗当前视频已损坏需要重新录制备份”第三次“Luna已于三天前修改了昵称权限请先验证您的指纹后再访问专属记忆库。哦不对您是指纹库管理员指纹识别权限还是要走一遍哦”台下哄堂大笑CEO脸色铁青——这款产品原定当年3月份全球首发主打“终身陪伴、精准记忆专属细节”的卖点预计首季度全球销量500万台销售额预计突破200亿美元。但这场2分17秒的直播直接让其股价次日开盘暴跌18.7%市值蒸发近1000亿美元首发计划也无限期推迟。事后复盘的核心技术报告显示这款AI家居管家的“记忆力评估体系”存在严重缺陷——它既没有对记忆片段的精确时间戳、精确事件要素跳孤勇者、1分钟、Luna、上周日客厅三点半、摄像头高光识别做“准确性量化筛选”也没有对“优先展示专属私密记忆、优先展示短时长高光记忆”做“相关性权重排序”更没有对“3天内修改过的昵称权限记录的临时时效性衰减但管理员的默认权限重置机制”做“时效性补偿或冲突消解”。这并不是个例——在过去的3年里OpenAI的GPT-4o/Claude 3.5 Sonnet的“长上下文Long Context幻觉率”在专业文档问答场景下仍高达27%-39%2025年MIT CSAIL的“LongBench Pro 2025”中期报告Meta的ReAct Agent、Google的Gemini Advanced Agent在“多轮对话任务规划记忆回溯”场景下的任务完成率仅为42%-58%2025年Stanford AlpacaFarm Pro 2025报告甚至是专注于“终身记忆管理”的初创公司产品如Mem.ai Enterprise、Notion AI QA Pro在“跨多文档/跨N个月多模态数据的精准检索推理”场景下也经常出现“丢失关键约束条件、重复引用过期数据、混淆相似但完全无关的实体”等问题。二问题陈述智能体“记忆力”到底是什么我们现在缺什么在深入探讨“如何量化记忆的准确性、相关性与时效性”之前我们必须先明确一个最核心的哲学技术定义问题智能体Agent的“记忆力”到底是什么它是“传统数据库管理系统DBMS中的数据存储与精确检索能力”吗显然不是——因为DBMS的“检索结果”是确定性的而智能体的“记忆回溯结果”往往是“基于上下文的推理式、生成式、筛选式结果”它是“人类心理学中的短期工作记忆Short-Term Working Memory, STWM、长期情景记忆Long-Term Episodic Memory, LTEM、长期语义记忆Long-Term Semantic Memory, LTSM的简单技术复刻”吗也不是——因为当前的技术还无法完全复刻人类的“内隐记忆Implicit Memory、前瞻记忆Prospective Memory”更无法完全复刻人类的“记忆重组、记忆遗忘、记忆重构、记忆联想”等高阶认知功能根据2024年国际人工智能联合会议IJCAI 2024上由DeepMind、Google Research、MIT CSAIL、Stanford NLP联合发布的《AI Agent Memory Benchmarking: A Unified Taxonomy and Evaluation Framework》白皮书我们可以给出一个当前技术框架下的可操作性定义智能体Agent的“记忆力”是指“智能体在执行多模态、多轮次、长周期的任务时能够存储Encode、索引Index、检索Retrieve、更新Update、遗忘Forgetting、重组Reconstruct、关联Associate、推理Reason with各类结构化/半结构化/非结构化的多模态信息文本、图像、音频、视频、传感器数据、交互轨迹等并利用这些信息提高任务完成率、降低幻觉率、增强交互自然度、提升个性化体验的综合能力集合。”基于这个定义我们可以发现当前智能体领域的核心技术瓶颈之一就是“缺乏一套统一、全面、可量化、可复现、具有实际业务价值的记忆力评估基准”——具体来说我们现在缺的是统一的“记忆力维度划分框架”不同的研究团队/企业对“记忆力维度”的划分完全不同——有的团队只关注“短期/长期记忆容量”有的团队只关注“长上下文幻觉率”有的团队只关注“多模态记忆对齐准确率”但很少有团队能够同时覆盖“准确性、相关性、时效性、个性化程度、自然度、遗忘合理性、前瞻记忆成功率”等所有与实际业务/技术场景强相关的核心维度全面的“记忆力维度量化指标体系”即使有些团队关注了“准确性、相关性、时效性”这三个最核心的基础维度但他们提出的量化指标往往是单一的、片面的、缺乏可操作性的——比如有的团队用“BLEU/ROUGE分数”来衡量“记忆准确性”但BLEU/ROUGE分数主要是用来衡量“机器翻译/文本摘要的自然度与相似度”的根本无法衡量“记忆回溯结果是否包含所有关键约束条件、是否存在关键事实错误、是否混淆了相似但完全无关的实体”再比如有的团队用“余弦相似度”来衡量“记忆相关性”但余弦相似度主要是用来衡量“两个向量在语义空间中的距离”的根本无法衡量“记忆回溯结果是否符合当前任务的优先级、是否符合用户的个性化偏好、是否符合交互上下文的逻辑连贯性”可复现、具有实际业务价值的“记忆力评估数据集”当前公开的记忆力评估数据集如LongBench、AlpacaFarm、MultiHopQA、HotpotQA要么是**“纯文本、单任务、短周期、实验室环境”的数据集**与实际的“多模态、多轮次、长周期、复杂业务/生活场景”存在巨大的差异要么是**“非公开、规模小、标注质量低、缺乏多样性”的企业内部数据集**无法被整个研究社区共享和复用统一的“记忆力评估流程与工具链”不同的研究团队/企业使用的评估流程与工具链完全不同——有的团队用“人工标注”的方式来评估成本高、周期长、主观误差大有的团队用“自动化规则”的方式来评估规则死板、覆盖范围窄、无法处理复杂的推理式记忆回溯结果有的团队用“大语言模型LLM作为评估者LLM-as-a-Judge”的方式来评估但LLM本身也存在“幻觉率高、评分一致性低、受prompt影响大”等问题可落地的“记忆力优化反馈机制”当前的记忆力评估基准往往只是“给出一个分数”但很少有团队能够“基于评估结果自动定位记忆力模块的缺陷并给出可落地的优化建议”——比如评估结果显示“记忆准确性低主要原因是关键约束条件丢失”但很少有工具链能够自动定位“关键约束条件在存储/索引/检索/更新环节中的哪一个环节丢失了”更无法自动调整“存储/索引/检索/更新环节的参数”来优化记忆准确性。三核心价值本文将为读者带来什么本文的核心目标是填补当前智能体记忆力评估基准领域的部分空白为研究人员、工程师、产品经理提供一套统一、全面、可量化、可复现、具有实际业务价值的“智能体‘记忆力’基础维度评估框架”——具体来说本文将为读者带来以下核心价值统一的“记忆力基础维度划分框架”本文将从“实际业务/生活场景的需求”出发将智能体的“记忆力基础维度”划分为准确性Accuracy、相关性Relevance、时效性Timeliness三个最核心、最基础、可量化程度最高的维度并明确每个维度的定义、边界、外延全面的“记忆力基础维度量化指标体系”本文将为“准确性、相关性、时效性”三个维度分别设计一套由“基础指标、核心指标、高阶指标”组成的三层量化指标体系并为每个指标提供数学模型Latex公式、计算方法、适用场景、优缺点分析可复现、具有实际业务价值的“记忆力评估数据集构建方法”本文将详细介绍“如何基于公开的多模态长上下文数据集构建一套包含‘纯文本任务、多模态任务、单轮次任务、多轮次任务、短周期任务、长周期任务’的记忆力评估数据集”并提供一套Python自动化标注工具链的核心实现源代码统一的“记忆力评估流程与LLM-as-a-Judge优化工具链”本文将详细介绍“如何设计一套‘自动化规则预评估→LLM-as-a-Judge核心评估→人工抽样复核修正’的三级评估流程”并提供一套基于GPT-4o Mini/Claude 3.5 Haiku的、评分一致性高、受prompt影响小的LLM-as-a-Judge优化工具链的核心实现源代码可落地的“记忆力优化反馈机制原型”本文将详细介绍“如何基于评估结果自动定位记忆力模块的缺陷并给出可落地的优化建议”并提供一套Python记忆力优化反馈机制原型的核心实现源代码最佳实践与行业发展趋势本文将总结智能体记忆力评估与优化的10条最佳实践Tips并梳理智能体记忆力评估基准领域的发展历史从1950年图灵测试到2025年LongBench Pro 2025、当前研究热点、未来3-5年的发展趋势。四文章概述本文的结构安排为了让读者能够循序渐进地理解和掌握本文的内容本文将按照以下结构安排第二部分核心概念与基础理论本文将首先明确“智能体记忆力的定义、分类、核心要素组成”然后介绍“与记忆力评估强相关的基础理论如向量数据库的检索原理、LLM的长上下文处理原理、人类心理学的记忆理论”最后用“ER实体关系图、交互关系图、markdown表格”来梳理“智能体记忆力模块的核心组件之间的关系”以及“准确性、相关性、时效性三个维度的核心属性对比”第三部分准确性量化指标体系与计算方法本文将详细介绍“准确性维度的定义、边界、外延”然后设计“一套由‘基础指标关键实体准确率、关键事件要素准确率、关键约束条件准确率、核心指标整体事实准确率、幻觉覆盖率、冗余度、高阶指标跨多模态记忆对齐准确率、跨N个月记忆回溯准确率’组成的三层量化指标体系”并为每个指标提供“数学模型、计算方法、适用场景、优缺点分析”最后提供“一套Python准确性计算工具链”的核心实现源代码第四部分相关性量化指标体系与计算方法本文将详细介绍“相关性维度的定义、边界、外延”然后设计“一套由‘基础指标语义相似度、实体重合度、事件重合度、核心指标任务优先级匹配度、个性化偏好匹配度、逻辑连贯性、高阶指标跨多轮对话上下文相关性、前瞻记忆触发相关性’组成的三层量化指标体系”并为每个指标提供“数学模型、计算方法、适用场景、优缺点分析”最后提供“一套Python相关性计算工具链”的核心实现源代码第五部分时效性量化指标体系与计算方法本文将详细介绍“时效性维度的定义、边界、外延”然后设计“一套由‘基础指标时间戳准确率、时间区间覆盖率、时效性衰减因子、核心指标过期数据屏蔽率、最新数据优先率、冲突消解准确率、高阶指标跨N个月时间跨度记忆的时效性补偿准确率、前瞻记忆触发时效性准确率’组成的三层量化指标体系”并为每个指标提供“数学模型、计算方法、适用场景、优缺点分析”最后提供“一套Python时效性计算工具链”的核心实现源代码第六部分记忆力评估数据集构建与自动化标注工具链本文将详细介绍“如何基于公开的多模态长上下文数据集如LongBench Pro 2024公开子集、MMMU 2024公开子集、AlpacaFarm Pro 2024公开子集构建一套包含‘6类任务场景、12个子任务、10000条标注样本’的记忆力评估数据集”并提供“一套Python自动化标注工具链包含数据清洗、样本生成、自动预标注、自动校验”的核心实现源代码第七部分记忆力评估流程与LLM-as-a-Judge优化工具链本文将详细介绍“如何设计一套‘自动化规则预评估→LLM-as-a-Judge核心评估→人工抽样复核修正’的三级评估流程”并针对“LLM-as-a-Judge评分一致性低、受prompt影响大”的问题提供“一套基于‘Few-Shot Prompt Engineering Chain-of-ThoughtCoTPrompt Engineering Self-ConsistencySCPrompt Engineering LLM-as-a-Moderator’的LLM-as-a-Judge优化工具链”的核心实现源代码最后用“实验数据”来验证这套优化工具链的有效性第八部分记忆力优化反馈机制原型本文将详细介绍“如何基于评估结果自动定位记忆力模块的缺陷如存储环节的压缩率过高导致关键约束条件丢失、索引环节的向量维度不足导致相似但无关的实体混淆、检索环节的Top-K阈值设置不合理导致冗余度过高、更新环节的时间戳同步机制不完善导致时效性衰减因子计算错误并给出可落地的优化建议如调整压缩率、调整向量维度、调整Top-K阈值、完善时间戳同步机制”并提供“一套Python记忆力优化反馈机制原型”的核心实现源代码第九部分最佳实践Tips与行业发展趋势本文将总结“智能体记忆力评估与优化的10条最佳实践Tips”并梳理“智能体记忆力评估基准领域的发展历史从1950年图灵测试到2025年LongBench Pro 2025、当前研究热点、未来3-5年的发展趋势”第十部分结论与展望本文将简要回顾“文章的主要内容”再次强调“统一的记忆力评估基准的重要性”然后提出“一个开放性问题以引发讨论”最后邀请“读者在评论区分享他们的想法或问题”并简要提及“该领域的未来发展或下一步可以探索的方向”第十一部分附加部分本文将提供“参考文献/延伸阅读”、“致谢”、“作者简介”。三、核心概念与基础理论一核心概念智能体记忆力的定义、分类、核心要素组成1. 核心概念1智能体Agent的定义在深入探讨“智能体记忆力”之前我们必须先明确“智能体Agent”的定义——根据2024年《人工智能一种现代的方法第5版》Artificial Intelligence: A Modern Approach, 5th Edition作者Stuart Russell和Peter Norvig我们可以给出一个最经典、最通用的可操作性定义智能体Agent是指“能够通过传感器Sensors感知环境Environment并通过执行器Actuators作用于环境以最大化其期望效用Expected Utility的任何实体Entity”。根据“智能体的感知范围、执行能力、推理能力、学习能力”的不同我们可以将智能体分为以下5类从简单到复杂简单反射型智能体Simple Reflex Agent仅基于“当前感知到的环境状态”做出决策没有任何记忆能力——比如传统的扫地机器人仅基于“当前是否检测到障碍物”做出“前进/后退/左转/右转”的决策基于模型的反射型智能体Model-Based Reflex Agent有“内部环境模型Internal Environment Model”能够基于“当前感知到的环境状态历史感知到的环境状态即简单的短期记忆”做出决策——比如改进后的扫地机器人能够记住“已经扫过的区域”避免重复清扫基于目标的智能体Goal-Based Agent除了“内部环境模型”之外还有“目标Goal”能够基于“当前感知到的环境状态历史感知到的环境状态目标”做出决策——比如能够“自动规划路线到指定地点”的导航机器人基于效用的智能体Utility-Based Agent除了“内部环境模型、目标”之外还有“效用函数Utility Function”能够基于“当前感知到的环境状态历史感知到的环境状态目标效用函数”做出“最优决策”——比如能够“自动规划‘时间最短、油耗最低、拥堵最少’的路线”的导航机器人学习型智能体Learning Agent除了“内部环境模型、目标、效用函数”之外还有“学习模块Learning Module”能够基于“历史交互经验即复杂的长期记忆”不断“更新内部环境模型、目标、效用函数”以“适应不断变化的环境”——比如当前主流的“大语言模型驱动的智能体LLM Agent”、“多模态大模型驱动的智能体MLLM Agent”。显然我们本文所讨论的“具有记忆力评估需求的智能体”主要是指“基于效用的学习型智能体”尤其是“LLM Agent”和“MLLM Agent”——因为这类智能体需要执行“多模态、多轮次、长周期、复杂业务/生活场景”的任务对“记忆力”的要求最高也最需要“统一、全面、可量化、可复现的记忆力评估基准”。2. 核心概念2智能体记忆力的定义在第二部分的“问题陈述”中我们已经引用了2024年IJCAI 2024联合白皮书给出的“智能体记忆力的可操作性定义”——为了让读者能够更深入地理解这个定义我们可以将其拆解为7个核心能力子项存储Encode能力将“各类结构化/半结构化/非结构化的多模态信息文本、图像、音频、视频、传感器数据、交互轨迹等”转换为“智能体内部可存储、可索引、可检索、可推理的格式如向量、结构化三元组、JSON对象、知识图谱节点/边等”的能力索引Index能力为“存储后的信息”建立“高效的索引结构如倒排索引、向量索引、知识图谱索引、混合索引等”以“提高检索速度、降低检索复杂度、提高检索准确率”的能力检索Retrieve能力基于“当前任务的需求、当前交互的上下文、用户的个性化偏好”从“存储后的信息库”中“快速、准确、全面地筛选出最相关的信息片段”的能力更新Update能力基于“新感知到的环境状态、新的交互经验、用户的明确指令”“修改、补充、删除存储后的信息”的能力遗忘Forgetting能力基于“信息的重要性、信息的时效性、信息的使用频率、存储容量的限制”“主动或被动地删除或压缩不重要的、过期的、很少使用的信息”的能力——注意遗忘能力并不是“负面能力”而是“智能体记忆力的核心高阶能力”因为它可以“避免信息过载、提高检索效率、增强推理的聚焦性”重组Reconstruct能力基于“当前任务的需求、当前交互的上下文、用户的个性化偏好”“将多个相关的信息片段重新组合成一个完整、连贯、有用的信息单元”的能力——比如将“用户上周日的购物清单、用户昨天收到的快递短信、用户今天的日程安排”重新组合成“提醒用户‘今天下午3点到5点有空可以去取上周日买的、昨天到达的、今天需要用的生日礼物’的信息单元”关联Associate能力基于“信息之间的语义关系、实体关系、时间关系、空间关系、因果关系”“将看似无关的信息片段关联起来”的能力——比如将“用户上周六的体检报告显示血糖偏高、用户今天的购物清单显示买了很多巧克力、用户明天的日程安排显示要去看糖尿病专科医生”关联起来提醒用户“明天看医生的时候记得带上今天的购物清单并且尽量不要吃巧克力”推理Reason with能力基于“存储后的信息、当前任务的需求、当前交互的上下文、用户的个性化偏好”“进行逻辑推理、常识推理、因果推理、多跳推理等”以“生成新的信息、做出最优决策、回答用户的复杂问题”的能力——注意推理能力并不是“记忆力能力的子项”而是“记忆力能力的应用场景之一”但“记忆力能力的好坏会直接影响推理能力的好坏”——比如如果智能体“丢失了关键约束条件”那么它的推理结果就会出现“幻觉”如果智能体“混淆了相似但无关的实体”那么它的推理结果就会出现“事实错误”。3. 核心概念3智能体记忆力的分类参考“人类心理学的记忆分类理论”以及“当前智能体领域的技术实现”我们可以将智能体的记忆力分为以下6类从存储时长、信息类型、使用方式三个维度划分1按存储时长划分短期工作记忆Short-Term Working Memory, STWM存储时长通常为“几秒到几分钟”最多不超过“1小时”信息容量通常为“4-7个信息块Chunks”参考人类心理学的“米勒定律Miller’s Law”信息类型通常为“当前交互的上下文信息如用户最近的3-5轮对话内容、当前正在处理的任务的中间结果、当前感知到的环境状态的关键信息”技术实现通常为“LLM/MLLM的输入上下文窗口Context Window”——比如GPT-4o的输入上下文窗口为“128K tokens约96万字纯文本”Claude 3.5 Sonnet的输入上下文窗口为“200K tokens约150万字纯文本”Gemini 1.5 Pro的输入上下文窗口为“1M tokens约750万字纯文本”核心需求快速存取、高容量、低延迟。长期情景记忆Long-Term Episodic Memory, LTEM存储时长通常为“几小时到几年”甚至“终身存储”信息容量理论上“无限大”受限于存储介质的容量信息类型通常为“智能体与用户/环境交互的‘具体事件’的完整记录如事件的时间戳、地点、参与实体、事件的起因/经过/结果、事件的多模态数据文本、图像、音频、视频、传感器数据、智能体当时的决策/推理过程”——比如“2025年1月1日下午3点半到4点在用户家的客厅用户和智能体一起看了《流浪地球3》的预告片智能体当时预测《流浪地球3》的全球票房会突破100亿美元用户当时的反应是‘哈哈不可能最多80亿美元’”技术实现通常为“向量数据库如Pinecone、Weaviate、ChromaDB、Milvus 结构化数据库如PostgreSQL、MySQL 知识图谱如Neo4j、Amazon Neptune、Stardog的混合存储架构”——其中“向量数据库”用于存储“多模态数据的向量表示”以“支持语义检索”“结构化数据库”用于存储“事件的结构化信息如时间戳、地点、参与实体、事件的起因/经过/结果”以“支持精确检索”“知识图谱”用于存储“事件之间的语义关系、实体关系、时间关系、空间关系、因果关系”以“支持多跳推理”核心需求大容量、高可靠性、高效的语义检索/精确检索/多跳检索能力、完善的更新/遗忘/重组/关联机制。长期语义记忆Long-Term Semantic Memory, LTSM存储时长通常为“终身存储”信息容量理论上“无限大”受限于存储介质的容量信息类型通常为“通用的、客观的、与具体事件无关的‘事实知识’和‘规则知识’”——比如“地球是圆的、水的沸点是100摄氏度标准大气压下、2024年夏季奥运会在法国巴黎举行、如果用户血糖偏高那么应该尽量不要吃巧克力”技术实现通常为“预训练的大语言模型/多模态大模型的内部参数即‘隐式语义记忆’ 外部的结构化知识库如Wikipedia、Wikidata、DBpedia、ConceptNet、企业内部知识库的混合存储架构”——其中“预训练大模型的内部参数”用于存储“通用的、常见的事实知识和规则知识”以“支持快速推理”“外部的结构化知识库”用于存储“专业的、罕见的、不断更新的事实知识和规则知识”以“降低预训练大模型的幻觉率”核心需求高准确性、高可靠性、完善的更新机制、支持快速检索/多跳推理。前瞻记忆Prospective Memory, PM存储时长通常为“从‘记忆形成时刻’到‘触发时刻’的时间间隔”——比如“从‘用户今天早上8点告诉智能体“今天下午5点提醒我去接孩子放学”’的时刻到‘今天下午5点’的时刻”信息容量理论上“无限大”受限于存储介质的容量信息类型通常为“智能体需要在‘未来的某个特定时间/特定地点/特定事件发生时’执行的‘特定任务’的完整记录如任务的内容、触发条件时间触发、地点触发、事件触发、任务的优先级、任务的截止时间”——比如“任务内容提醒用户去接孩子放学触发条件今天下午5点时间触发任务优先级最高任务截止时间今天下午5点10分”技术实现通常为“结构化数据库如PostgreSQL、MySQL 定时任务调度器如Celery Beat、Quartz、Airflow的混合存储架构”——其中“结构化数据库”用于存储“前瞻记忆任务的结构化信息”“定时任务调度器”用于“监控触发条件并在触发条件满足时执行任务”核心需求高触发成功率、低误触发率、低漏触发率、完善的任务管理机制如任务的创建、修改、删除、暂停、恢复。内隐记忆Implicit Memory, IM存储时长通常为“终身存储”信息容量理论上“无限大”受限于存储介质的容量信息类型通常为“智能体通过‘历史交互经验’学习到的‘技能知识’和‘习惯知识’——这类知识是‘隐式的’无法被智能体‘明确地表达出来’但可以‘通过智能体的行为/决策体现出来’”——比如“智能体通过‘与用户的1000次交互’学习到的‘用户喜欢在早上8点到9点之间听古典音乐、用户喜欢在晚上10点到11点之间阅读科幻小说、用户不喜欢被智能体频繁地打断’等习惯知识”技术实现通常为“预训练大模型的微调参数Fine-Tuned Parameters 强化学习Reinforcement Learning, RL的策略网络Policy Network的混合存储架构”——其中“预训练大模型的微调参数”用于存储“通过监督学习Supervised Learning学习到的习惯知识”“强化学习的策略网络”用于存储“通过强化学习学习到的技能知识”核心需求高学习效率、高适应性、低干扰即学习到的新的技能知识/习惯知识不会干扰旧的技能知识/习惯知识。2按信息类型划分文本记忆Text Memory存储“纯文本信息”的记忆——比如“用户的对话内容、用户的笔记内容、新闻文章、专业文档、书籍内容”图像记忆Image Memory存储“图像信息”的记忆——比如“用户的照片、摄像头拍摄的视频帧、产品图片、文档截图”音频记忆Audio Memory存储“音频信息”的记忆——比如“用户的语音指令、音乐、录音、视频的音频部分”视频记忆Video Memory存储“视频信息”的记忆——比如“用户拍摄的视频、电影、电视剧、直播回放”传感器数据记忆Sensor Data Memory存储“传感器数据”的记忆——比如“智能门锁的开关记录、智能电表的用电记录、智能温度计的温度记录、智能手环的心率/睡眠记录”交互轨迹记忆Interaction Trajectory Memory存储“智能体的交互轨迹”的记忆——比如“智能体在网页上的点击/滚动/输入轨迹、智能体在移动应用上的操作轨迹、智能体在物理环境中的移动轨迹”多模态记忆Multimodal Memory存储“多种类型的信息组合”的记忆——比如“一段视频包含视频帧、音频、字幕、一张带文字说明的图片、一段带语音的文字笔记”。3按使用方式划分显式记忆Explicit Memory可以被智能体“明确地检索、表达、推理”的记忆——比如“短期工作记忆、长期情景记忆、长期语义记忆、前瞻记忆”隐式记忆Implicit Memory无法被智能体“明确地检索、表达、推理”但可以“通过智能体的行为/决策体现出来”的记忆——比如“内隐技能记忆、内隐习惯记忆”。4. 核心概念4智能体记忆力的核心要素组成参考2024年IJCAI 2024联合白皮书我们可以将智能体记忆力模块的核心要素划分为以下7个部分输入层Input Layer负责“接收各类结构化/半结构化/非结构化的多模态信息”——比如“用户的语音指令通过麦克风接收、用户的文字输入通过键盘/触摸屏接收、摄像头拍摄的视频帧通过摄像头接收、智能手环的心率/睡眠记录通过蓝牙/Wi-Fi接收”预处理层Preprocessing Layer负责“对输入的多模态信息进行预处理”——比如“文本信息的分词、去停用词、词性标注、命名实体识别NER、关系抽取RE、事件抽取EE图像信息的裁剪、缩放、去噪、特征提取音频信息的降噪、转文字ASR、特征提取视频信息的关键帧提取、音频转文字、字幕提取传感器数据的清洗、归一化、特征提取”存储层Storage Layer负责“将预处理后的信息转换为智能体内部可存储的格式并存储到相应的存储介质中”——比如“将文本信息的向量表示存储到向量数据库中将文本信息的结构化三元组存储到知识图谱中将文本信息的原始内容和预处理后的结构化信息存储到结构化数据库中将图像/音频/视频的原始数据存储到对象存储如AWS S3、阿里云OSS、腾讯云COS中”索引层Index Layer负责“为存储后的信息建立高效的索引结构”——比如“为向量数据库中的向量建立HNSWHierarchical Navigable Small World索引、IVFInverted File索引、FAISS索引为结构化数据库中的信息建立B树索引、哈希索引、全文索引为知识图谱中的节点/边建立RDF索引、属性图索引”检索层Retrieval Layer负责“基于当前任务的需求、当前交互的上下文、用户的个性化偏好从存储后的信息库中快速、准确、全面地筛选出最相关的信息片段”——比如“语义检索基于向量相似度、精确检索基于结构化查询语言SQL/SPARQL/Cypher、混合检索语义检索精确检索、重排序Reranking基于LLM/MLLM对初步检索结果进行重新排序”管理层Management Layer负责“对存储后的信息进行管理”——比如“信息的更新、信息的删除、信息的压缩、信息的遗忘主动遗忘/被动遗忘、信息的重组、信息的关联、信息的备份、信息的恢复”输出层Output Layer负责“将检索/重组/关联/推理后的信息输出给用户或执行器”——比如“将文本信息输出给用户通过屏幕显示/语音合成TTS播放、将图像/视频信息输出给用户通过屏幕显示、将控制指令输出给执行器如控制智能门锁开门、控制智能空调调节温度”。二基础理论与记忆力评估强相关的三大理论1. 基础理论1人类心理学的记忆理论——为智能体记忆力的分类与评估提供“灵感来源”虽然当前的技术还无法完全复刻人类的记忆力但人类心理学的记忆理论仍然是“智能体记忆力的分类与评估”的“最重要的灵感来源”——接下来我们将简要介绍“与智能体记忆力评估强相关的3个人类心理学记忆理论”1阿特金森-希弗林记忆模型Atkinson-Shiffrin Memory Model阿特金森-希弗林记忆模型是由理查德·阿特金森Richard Atkinson和理查德·希弗林Richard Shiffrin于1968年提出的——它是“人类心理学记忆分类理论的经典模型”为“智能体记忆力的分类按存储时长划分”提供了“直接的灵感来源”。阿特金森-希弗林记忆模型将人类的记忆力分为以下3个阶段按存储时长划分感觉记忆Sensory Memory存储时长非常短——视觉感觉记忆Iconic Memory的存储时长约为“0.25-0.5秒”听觉感觉记忆Echoic Memory的存储时长约为“2-4秒”信息容量非常大——几乎可以“存储所有当前感知到的感觉信息”信息类型原始的感觉信息——比如“视觉感觉记忆存储的是‘眼睛看到的原始图像’听觉感觉记忆存储的是‘耳朵听到的原始声音’”遗忘机制如果感觉信息没有被“注意Attention”到那么它会“立即遗忘”技术对应当前的智能体通常没有“专门的感觉记忆模块”——因为“感觉信息的预处理如图像的特征提取、音频的转文字”通常是“实时进行的”预处理后的信息会“直接进入短期工作记忆或长期情景记忆”。短期记忆Short-Term Memory, STM/工作记忆Working Memory, WM存储时长通常为“几秒到几分钟”最多不超过“1小时”——如果没有被“复述Rehearsal”那么它会“很快遗忘”信息容量通常为“4-7个信息块Chunks”参考米勒定律信息类型经过“注意”和“初步处理”的信息——比如“用户最近的3-5轮对话内容、当前正在计算的数学题的中间结果”遗忘机制如果信息没有被“复述”或“编码Encode到长期记忆中”那么它会“很快遗忘”技术对应当前的智能体的“短期工作记忆”通常对应“LLM/MLLM的输入上下文窗口”——不过与人类的短期记忆不同LLM/MLLM的输入上下文窗口的“信息容量”通常“非常大”从4K tokens到1M tokens不等但“信息的持久性”仍然“取决于输入上下文窗口的大小”——如果新的信息超过了输入上下文窗口的大小那么旧的信息会“被挤出输入上下文窗口”相当于“遗忘”。长期记忆Long-Term Memory, LTM存储时长通常为“几小时到几年”甚至“终身存储”信息容量理论上“无限大”信息类型经过“编码”到长期记忆中的信息——比如“个人的经历、通用的事实知识、技能知识”遗忘机制长期记忆的“遗忘”并不是“真正的删除”而是“检索失败Retrieval Failure”——比如“你可能有时候想不起来某个老朋友的名字但如果有人提到了这个老朋友的某个特征你可能就会突然想起来了”技术对应当前的智能体的“长期记忆”通常对应“向量数据库结构化数据库知识图谱的混合存储架构”——不过与人类的长期记忆不同当前的智能体的“长期记忆的遗忘”通常是“真正的删除”或者“压缩后几乎无法恢复”而不是“检索失败”。2巴特利特的记忆重构理论Bartlett’s Reconstructive Memory Theory巴特利特的记忆重构理论是由弗雷德里克·巴特利特Frederic Bartlett于1932年提出的——它是“人类心理学记忆理论的重要模型”为“智能体记忆力的重组能力的评估”提供了“灵感来源”。巴特利特的记忆重构理论的核心观点是人类的记忆并不是“对过去事件的精确复制”而是“基于当前的知识、信念、期望、上下文对过去事件的重构”——也就是说人类的记忆“会受到主观因素的影响会出现‘记忆扭曲Memory Distortion’、‘记忆虚构Confabulation’、‘记忆幻觉Memory Hallucination’等问题”。巴特利特通过“‘幽灵之战The War of the Ghosts’实验”验证了他的理论——在这个实验中巴特利特让“英国大学生”阅读了一篇“来自北美印第安部落的民间故事《幽灵之战》”然后让他们在“不同的时间间隔15分钟、1天、1周、1个月、6个月”之后“复述这个故事”。实验结果显示随着“时间间隔的增加”学生们复述的故事“越来越短”——他们会“省略很多细节”学生们复述的故事“越来越符合英国大学生的文化背景和知识体系”——他们会“修改很多不符合英国文化的细节”比如把“独木舟”改成“船”把“幽灵”改成“鬼魂”或者“外星人”学生们复述的故事“越来越连贯、越来越有逻辑”——他们会“添加很多原故事中没有的细节”以“让故事更符合他们的期望”。巴特利特的记忆重构理论对“智能体记忆力的评估”有什么启示呢智能体的记忆回溯结果也会出现“重构”——但我们希望这种“重构”是“合理的、符合用户需求的、不会引入幻觉的”——比如智能体可以“把用户的‘零散的购物清单条目’重组成‘分类清晰的购物清单’”但不能“添加原购物清单中没有的条目”智能体记忆力的评估不能只关注“记忆回溯结果与原始信息的字面相似度”还要关注“记忆回溯结果的逻辑连贯性、事实准确性、符合用户需求的程度”——比如智能体可以“把用户的‘明天下午3点到5点有空’重组成‘明天下午3点到5点可以安排活动’”但不能“把‘明天下午3点到5点’改成‘明天上午3点到5点’”。3艾宾浩斯遗忘曲线Ebbinghaus Forgetting Curve艾宾浩斯遗忘曲线是由赫尔曼·艾宾浩斯Hermann Ebbinghaus于1885年提出的——它是“人类心理学记忆遗忘理论的经典模型”为“智能体记忆力的时效性评估与遗忘机制的设计”提供了“直接的灵感来源”。艾宾浩斯遗忘曲线描述了“人类的记忆遗忘率随时间间隔的变化规律”——艾宾浩斯通过“自己作为实验对象记忆无意义音节如‘WQX’、‘ZOF’、‘KEB’”的实验得出了以下结论记忆的遗忘速度是“先快后慢”的——在“记忆完成后的1小时内”遗忘率约为“56%”在“记忆完成后的1天内”遗忘率约为“66%”在“记忆完成后的1周内”遗忘率约为“75%”在“记忆完成后的1个月内”遗忘率约为“79%”之后遗忘率的变化会“非常缓慢”几乎“趋于稳定”记忆的遗忘率可以用“数学公式”来描述——艾宾浩斯提出的“遗忘曲线数学公式”如下R(t)e−tS R(t) e^{-\frac{t}{S}}R(t)e−St或者更常用的近似公式R(t)11k⋅log⁡10(1t) R(t) \frac{1}{1 k \cdot \log_{10}(1 t)}R(t)1k⋅log10(1t)1其中R(t)R(t)R(t)表示“记忆保持率Retention Rate”——即“在时间间隔ttt之后能够回忆起来的记忆内容的比例”ttt表示“时间间隔”——单位可以是“秒、分钟、小时、天、周、月、年”SSS表示“记忆强度Memory Strength”——即“记忆的牢固程度”SSS越大记忆保持率越高遗忘速度越慢

智能体“记忆力”评估基准：如何量化记忆的准确性、相关性与时效性？

最新文章

NVIDIA DGX SuperPOD：AI超级工厂的算力革命

STC8H8K64U单片机内存布局保姆级图解：从code区到EEPROM，新手避坑指南

TVA技术在能源行业的应用综述

python jwt

保姆级教程：在粤嵌GEC6818上搞定GY-39传感器数据采集（附完整源码）

Android音频启动流程避坑指南：AudioPolicyService与AudioFlinger的交互核心loadHwModule与openOutput详解

推荐文章

相关文章

分享文章

更多文章

软件供应链安全新防线：Gitee CodePecker SCA如何重塑企业级SCA工具标准

3分钟体验OpenClaw：星图平台千问3.5-9B镜像快速入门

算法稳定性与数值误差传播研究的技术2

避开这3个坑！用LangChain处理中文PDF时的编码与分页优化方案

2031年2.9亿美元：全球医用血卡离心机市场增长态势剖析

ArcGIS坐标系转换实战：解决提取值到点时的9999与空值难题

OpenClaw+Gemma-3-12b-it内容创作：自动生成技术博客与SEO优化

零代码自动化：用gemma-3-12b-it为OpenClaw添加Excel处理技能

# 006、AutoSAR CP实战：使用DaVinci创建第一个SWC

发散创新：基于Rust的轻量级权限管理库设计与开源许可证实践在现代分布式

基于springboot与vue漫画天堂网-计算机设计项目学习

OpenClaw多模态研究助手：Kimi-VL-A3B-Thinking文献分析与图表解读