LLM记忆管理终于不用“手把手教”了

2025-10-20 19:25:11 · chineseheadlinenews.com · 来源: 量子位

不再依赖人工设计,让模型真正学会管理记忆。

来自来自加州大学圣地亚哥分校、斯坦福大学的研究人员提出了一个创新的强化学习框架——

Mem-α,用于训练LLM智能体自主管理复杂的记忆系统。

在实际应用中,仅仅依靠prompts和instructions往往不足以覆盖所有场景:模型经常会遇到不知道如何更新记忆的情况,尤其是当记忆系统像MIRIX那样变得复杂时。

不同于MIRIX、MemGPT等依赖prompts和instructions的传统方案,Mem-α采用数据驱动的强化学习方法,让模型在交互中自主学习最优记忆管理策略。

如何做到的呢?

让模型真正学会如何管理记忆

上下文窗口限制&现有记忆系统的缺陷

大语言模型(LLM)智能体受限于有限的上下文窗口,这使得外部记忆系统对于长期信息理解变得至关重要。

即使像GPT-4.1这样支持100万tokens的模型,在长期交互中也会随着窗口增长而导致成本激增和延迟增加。

当前的记忆增强智能体通常依赖预定义的指令和工具来进行记忆更新。

然而,语言模型往往缺乏决定存储哪些信息、如何结构化组织以及何时更新的能力——尤其是当记忆系统变得更加复杂时。

这种局限性导致了次优的记忆构建和信息丢失,严重影响了智能体在长期交互中的表现。

如上图所示,在没有强化学习的情况下,模型在管理记忆系统时会出现明显的错误:核心记忆没有更新导致重要信息丢失,语义记忆中只保存了单一条目造成信息损失。

而经过Mem-α训练后的模型能够正确地在核心记忆、情景记忆和语义记忆中存储相应信息,实现全面的记忆管理。

Mem-α 强化学习框架

Mem-α的核心贡献在于将记忆构建问题转化为一个可通过强化学习优化的序列决策问题。

与以往依赖监督学习或手工规则的方法不同,Mem-α让智能体在处理信息流的过程中自主探索最优的记忆管理策略,并通过下游任务表现直接获得反馈。这种端到端的优化方式使得模型能够学习到真正有效的记忆构建策略。

任务设定(Task Setup)

如上图所示,Mem-α将记忆构建建模为顺序决策过程。智能体依次处理信息块,决定执行哪些记忆操作,处理完成后利用构建的记忆系统回答问题。

奖励函数设计

Mem-α 采用多维度奖励函数优化记忆构建:

记忆系统架构

为了展示Mem-α框架的有效性,研究团队设计了一个包含三种记忆类型的复杂记忆系统,灵感来源于认知科学中的记忆分类理论:

1、核心记忆(Core Memory):存储用户的基本、持久信息(角色、偏好、目标),容量512tokens;

2、情景记忆(Episodic Memory):记录带时间戳的事件,如 “[9:15]在咖啡馆遇见Alice”;

3、语义记忆(Semantic Memory):存储结构化知识和事实,如专业知识、操作指南等。

每种记忆类型支持插入、更新、删除操作。智能体需要学习在适当时机选择合适的工具和记忆类型。

训练数据集构建

Mem-α的训练数据集的构建思路来源于MemoryAgentBench中的四个维度:

1、精确检索(Accurate Retrieval):从历史数据中提取正确信息以回答查询,涵盖单跳和多跳检索场景

2、测试时学习(Test-Time Learning):在部署期间获取新行为或能力

3、长期理解(Long-Range Understanding):整合分布在多个片段中的信息,回答需要全面序列分析的查询

4、冲突解决(Conflict Resolution):在遇到矛盾证据时修订、覆盖或删除先前存储的信息

本研究聚焦于前三个维度,排除了冲突解决维度。这是因为目前缺乏真实的评估基准——现有的冲突解决数据集主要是合成的,未能充分捕捉真实世界的复杂性。

研究团队收集并整理了来自不同源头的八个数据集,处理到统一的范式,最后构造了一个完善的数据集并保证与MemoryAgentBench的测试集没有交织,涵盖了以上的前三个维度进行训练。

实验结果

主实验:性能与泛化能力

Mem-α在30k tokens上训练,在验证集(验证集也是

在测试集上的效果如下:

四个关键发现:

1、全面超越现有方法:在所有任务上显著优于基线。在MemoryAgentBench上,精确检索(AR)和长期理解(LRU)任务尤其突出,证明了对未见分布的强泛化能力。

2、高效记忆压缩:相比Long-Context和RAG-Top2,记忆占用减少约50%的同时保持更优性能。在BookSum和InfBench-Sum上压缩效果更佳,验证了语义压缩机制在性能和效率间的平衡。

3、结构化架构的必要性:扁平记忆基线(MEM1、MemAgent)使用单段落表示,性能明显受限,凸显了非结构化记忆在复杂信息处理中的不足。这验证了分层记忆设计和强化学习优化策略的有效性。

4、极强的长度泛化:训练时仅使用平均

消融实验:性能与泛化能力

实验对比了Qwen3-4B在强化学习训练前后的表现。训练前,模型在使用复杂记忆系统时表现不佳,平均准确率仅为38.9%,且经常出现工具使用错误。

经过Mem-α训练后,同一模型的性能提升到64.2%,展现出正确的记忆管理行为。

Mem-α证明了当涉及LLM智能体的记忆管理时,学习胜过工程。

传统上被视为需要精心工程化的系统组件,实际上可以通过端到端的学习得到优化,未来,能够构建更智能、更自适应的AI系统。


    24小时新闻排行榜更多>>
  1. 四中全会前夕 七名中共大使遭集体撤换
  2. 【翻墙必看】四中全会 习近平交权下台?
  3. 四中全会恐成羞辱大会?落马9将领全是习家军
  4. 美移民局开始采用2025新版入籍试题和流程
  5. 川普:已受邀…明年“相当早”将访问中国
  6. 没给小费 顾客被餐厅员工追出来围堵 还叫了警察!
  7. 习近平去留之争 中共体制走到悬崖边
  8. 黄仁勋1句话引爆股市
  9. 中共四中全会闭门内斗 党媒粉饰经济引嘲讽
  10. 中共——消耗恐怖手段维持统治的国家机器
  11. 全崩!AWS宕机:航班延误 银行瘫痪 多国陷“数字停摆”!
  12. 中国多地秋雨绵绵粮食霉变 烘干机卖空
  13. 此一时彼一时也 那一夜胡锦涛护驾习近平
  14. 上诉法院允许川普派军进驻波特兰
  15. 川普:政府将调查“无王”抗议背后金主
  16. 两个人不同的心态带来不同的后果
  17. 美将公布新饮食指南 重新定义健康食物标准
  18. 马斯克的突破,“脑控”离我们还有多远?
  19. 法轮功在捷克首都集会游行 多家媒体报道
  20. 四中全会气氛肃杀 或逾20名习家军被处理
  21. 是什么原因导致亚马逊云服务中断?
  22. 亚马逊云端当机的原因是什么?
  23. 何一靠什么走到币圈中心?
  24. 萨科齐今日入狱 成法国战后首位服刑前总统
  25. 萦绕四中全会的禁忌问题:谁将接班习近平
  26. 美国发布新指南,这些人可豁免
  27. 法轮功学员关押中惨死 美委员会强烈谴责中共
  28. 中国稀土管制,反而加速全球产业链的重建
  29. 王丹父亲辞世 悲喊:无法送终是极大遗憾与悲哀
  30. 学习楷书最佳范本之一 柳公权〈玄秘塔碑〉
  31. 美中贸易疑虑缓解,欧股收盘走扬
  32. 川普:重申对习近平的信任
  33. 男性警讯:医生揭示“5个寿命缩短习惯”
  34. 石破茂卸任当天,离开官邸时笑得合不拢嘴
  35. 吹哨人曝于朦胧遗体未火化 暗网传已成标本 收魂法会背后的惊悚真相 于经纪人等恶人要逃?
  36. 安世中国要脱离总部自运营 员工:一片混乱
  37. 中国固定资产投资萎缩 分析:经济将持续放缓
  38. FT:中国已做好摊牌准备 北京并非只有稀土一张牌
  39. 越南副防长被曝访韩期间涉嫌“性骚扰”,韩方抗议
  40. 施一公:终究错过,懊悔不已
  41. 泽连斯基转发OnlyFans成人女模特视频
  42. 中共四中全会官媒合力宣染“一茬接着一茬干” 遭群讽
  43. LLM记忆管理终于不用“手把手教”了
  44. 传秦刚四中全会前露脸 分析:或有大事发生
  45. 阿根廷有UFO高速公路 人们遇见恶魔与妖精
  46. 影响健康!把这2样东西从电脑旁边拿开
  47. 中国经济疲软 北京多家星级酒店街头摆摊卖餐
  48. 伊朗高官女儿爆乳迎客,遭骂双标
  49. 全球首例!中国医生让四肢瘫痪者自主行走
  50. 石破茂率内阁总辞 高市早苗将接棒
  51. 中共开四中全会 访民挤爆信访局 吁推翻暴政
  52. 不是世界变得荒唐,而是荒唐变得被允许
  53. 美ICE九个月逮捕48万非法移民
  54. 中国西北最大电脑城关门了
  55. 日本首位女首相 当年曾被学校列“需注意人物”
  56. 经济学人:中美贸易谈判陷入“有毒境地” 原因是…
  57. OpenAI推出自家浏览器 挑战谷歌Chrome
  58. 军车开往北京 党媒两种声音 四中全会暗潮汹涌
  59. 被问美防长戴“俄国旗颜色领带” 五角大楼:你妈买的
  60. 地方政府清欠账款,从单笔50万元以下开始