Linear Attention 作为可泛化记忆机制

Chenxin Li; Hao Chen; Xuefeng Hu

研究博客 Read in English

Linear Attention 作为可泛化记忆机制

Chenxin Li, Hao Chen, Xuefeng Hu

日期2026 年 4 月 4 日

状态公开博客草稿

代码OpenCodexLabs/LinMem

代码项目。 对应实现是 LinMem：Linear Models as Memorizers for Agents。

摘要

大语言模型已经在预训练规模化和推理时规模化的推动下快速发展，但它们仍然难以把部署后的经验转化为持久的长期记忆。现有智能体记忆栈通常依赖检索式管线（例如向量数据库、相似度搜索，以及工程化的记忆写入/读取规则），或直接使用长上下文 Softmax 注意力；二者在实践中都能有效工作，但也常受检索噪声、启发式设计选择和二次注意力成本的限制。我们提出一个简单且模块化的替代方案：保留一个强大的 Softmax 注意力推理模型来决定何时查询记忆，同时用一个参数化的线性注意力记忆模型（Kimi-Linear）替代外部 embedding 数据库，使其通过对话完成信息的总结、存储和检索。该思路受到近期长期记忆研究（如 MIRAS、Titans 和 nested learning）的启发，但关注点不同：我们并不设计一个在多层级、多速度上紧耦合更新的多时间尺度系统，而是聚焦于一个易插拔的记忆替换模块，使其兼容当前 LLM 智能体管线。我们在长视频理解任务中结合 M3-Agent 风格的记忆调用进行验证，结果表明线性注意力记忆可以作为一种实用、可扩展的测试时学习基底。

引言

大语言模型（LLM）的规模化大致经历了两个阶段：预训练规模化通过海量语料和更大的参数量释放涌现能力 [vaswani2017attention]；推理时规模化通过扩展上下文窗口、生成中间推理 token 来提升输出质量。然而，这两种范式共享一个关键盲点：一旦预训练结束，模型的参数化知识就被冻结。系统可以回忆训练语料中的信息，也可以处理当前上下文窗口内的 token，但缺少一种内在机制，把新的经验整合为长期记忆。某种意义上，当前 LLM 患有一种顺行性遗忘：它们记得预训练阶段的遥远过去，也能感知上下文窗口中的当下，却无法用持久、可更新的记忆把二者连接起来。

从静态知识到自适应记忆：三种规模化范式。

测试时训练作为下一个规模化前沿。 这一局限指向第三个规模化前沿：测试时训练（test-time training, TTT）与持续学习。在这种范式下，模型在处理新数据时动态调整内部状态 [sun2024learning; bell2025future]。它的愿景是让智能体真正从经验中学习：积累情景知识、持续修正世界模型，并在部署过程中逐渐提升能力，而不是发布之后保持静止。

当前智能体记忆栈的不足。 为了把记忆扩展到固定上下文窗口之外，许多系统采用检索式管线：把过去信息存入外部记忆（如向量数据库、结构化记忆存储或可由工具访问的知识库），并在推理时通过相似度搜索召回候选内容 [packer2023memgpt; chhikara2025mem0]。这些方法实用且通常效果很强，但其行为容易受工程选择影响，包括切分与索引方式、embedding 模型、top-$k$ 策略以及检索噪声。另一条路线是继续扩展长上下文 Softmax 注意力。现代 Transformer 已经可以扩展到百万 token 级上下文，但核心注意力计算仍是 $O(N^2)$，在需要近乎无限历史的场景中仍然不足 [vaswani2017attention]。

动机：用学习得到的记忆基底替代检索胶水层。

线性注意力与记忆—抽象困境。 线性注意力模型和现代循环架构——包括状态空间模型（SSM）[gu2024mamba]、RetNet [sun2023retentive]、RWKV [peng2023rwkv] 和 gated linear attention [yang2023gated]——提供了一个有吸引力的替代方向：它们以 $O(N)$ 复杂度处理序列，并维护固定大小的隐藏状态，因此在理论上适合作为无界长度记忆。然而，这些模型长期面临记忆—抽象困境：将整个上下文压缩到固定大小状态会损失细粒度回忆，产生“模糊”的记忆，相比完整 Softmax 注意力推理能力更弱 [qin2022devil; behrouz2025titans]。

我们的方法：面向智能体的简单、可插拔参数化记忆。 MIRAS [behrouz2025connected]、Titans [behrouz2025titans] 和 nested learning [behrouz2025nested] 等近期工作探索了一体化设计，即在多个层级和时间尺度上更新记忆（例如不同模块、不同更新规则和不同速度）。相比之下，我们提出一个更简单的问题：能否在保持其余智能体管线不变的前提下，用线性注意力模型替代现代智能体中的外部 embedding 数据库？

具体而言，我们基于 M3-Agent 框架 [long2025m3agent]：其中一个通过强化学习训练的 Softmax 注意力策略模型会学习何时调用记忆操作，并通过 embedding 数据库上的余弦相似度搜索检索相关信息。我们保留相同的高层接口，但用线性注意力记忆模型（Kimi-Linear [team2025kimi]）替换 embedding 数据库。该记忆模型通过对话同时完成保存和搜索记忆：它把长历史逐步总结进参数化状态，并在 RL 策略判断需要记忆时由推理模型进行查询。

贡献。 本文主要贡献如下：

我们形式化了一种模块化、智能体友好的视角：将线性注意力视为参数化长期记忆，可以在最小改动现有管线的情况下替换相似度搜索数据库。
我们在 M3-Agent 风格的 RL 推理模型中加入 Kimi-Linear 记忆模块，通过对话执行记忆写入和读取，从而实例化这一设计。
我们在长视频理解基准上验证了这种替换的有效性，展示了一条通向可扩展测试时学习的实用途径。

方法

我们描述如何用线性注意力记忆模型替换现有多模态智能体中的基于 embedding 的检索模块。设计原则是模块化：只改变记忆后端，而保持推理控制器、记忆图构建和评测管线不变。

方法：保留推理控制器，只替换记忆后端。

双模型架构

我们的系统由两个协作语言模型组成，它们承担互补角色：

推理模型（Softmax 注意力）。 一个标准 Transformer LLM 作为推理控制器。给定用户查询后，它决定何时访问记忆，以及如何构造检索请求。在 M3-Agent 框架 [long2025m3agent] 中，该控制器通过强化学习训练以执行多轮推理：每一轮它要么发起一次记忆查询，要么提交最终答案。我们在所有实验中保持该控制器不变，从而隔离记忆后端带来的影响。

记忆模型（线性注意力）。 一个线性注意力 LLM 替代 embedding 数据库作为持久记忆存储。它不再把记忆编码为固定维度向量并通过余弦相似度检索，而是通过上下文窗口读取完整文本记忆，并用自然语言回应相关信息。该设计利用了线性注意力的两个性质：（i）$O(N)$ 推理复杂度使其能够处理比二次成本 Transformer 更长的记忆上下文；（ii）模型可以同时检索并总结，产生上下文适配的答案，而不是原始记忆片段。

具体而言，我们使用 Kimi-Linear-48B-A3B [team2025kimi] 作为主要记忆模型。Kimi-Linear 使用 delta attention——一种通过 delta rule（$\ell_2$ 回归）而非简单加性（Hebbian）累积来更新关联记忆矩阵的线性注意力变体 [yang2024parallelizing]。该模型采用 Mixture-of-Experts（MoE）架构，活跃参数约 3B，支持最高 262k token 的上下文窗口。

通过对话执行记忆操作

记忆模型为写入和读取提供了简单的对话接口。

通过对话执行记忆操作：同一个模型同时写入和读取记忆。

记忆写入。 随着智能体处理视频，它会为每个片段生成文本描述：场景描述、对话转写、人物外观和识别出的实体。这些描述按时间顺序拼接形成记忆文本。我们考虑两种变体：

原始 caption：直接使用原始视频 caption，保留所有低层细节。
结构化记忆：先由 M3-Agent 的记忆图构建器 [long2025m3agent] 处理 caption，抽取以实体为中心的情景记忆节点和语义记忆节点。

记忆读取。 当推理控制器发出查询时，记忆模型接收一个包含完整记忆文本和查询的问题提示，并返回相关信息的自然语言总结。形式化地，给定记忆文本 $M = [m_1, m_2, \ldots, m_T]$（其中每个 $m_t$ 对应一个视频片段）和查询 $q$，记忆模型生成：

r = f_{\text{mem}}(\mathcal{M}, q),

其中 $f_{\text{mem}}$ 是线性注意力模型，$r$ 是检索到的总结。该总结会被追加到控制器上下文中，用于下一步推理。

与 embedding 检索的对比。 在标准 M3-Agent 管线中，每个记忆节点都通过文本 embedding 模型（如 text-embedding-3-large）编码为向量 $\mathbf{e}_i \in \mathbb{R}^d$。查询时，查询也被编码为 $e_q$，然后通过余弦相似度检索 top-$k$ 节点：

\text{top-}k \; \underset{i}{\arg\max} \; \frac{\mathbf{e}_q \cdot \mathbf{e}_i}{\|\mathbf{e}_q\| \|\mathbf{e}_i\|}.

随后，检索到的文本片段被传给控制器。这个两阶段过程（embed → retrieve → read）需要预计算 embedding、维护向量索引，并额外执行总结步骤。相比之下，我们的方法把检索与总结折叠为记忆模型的一次前向传播。不需要预计算、存储或索引 embedding——记忆完全以文本形式存在，并由线性注意力模型消费。

复杂度分析

推理成本。 设 $N$ 为记忆 token 总数。Embedding 检索需要计算 $N/c$ 次点积（其中 $c$ 为 chunk 大小），检索成本为 $O(Nd/c)$，且还需要一次单独的 LLM 调用进行总结。标准 Transformer 读取完整记忆会产生 $O(N^2 d)$ 注意力成本。线性注意力通过维护固定大小的状态矩阵 $\mathbf{S} \in \mathbb{R}^{d \times d}$，把复杂度降为 $O(N d^2)$，即关于序列长度线性：

\mathbf{S}_t = \alpha_t \mathbf{S}_{t-1} + \mathbf{k}_t \mathbf{v}_t^\top - \beta_t (\mathbf{k}_t \mathbf{k}_t^\top \mathbf{S}_{t-1}),

其中 $\alpha_t$ 和 $\beta_t$ 分别是可学习的保留门和修正门，最后一项实现 delta-rule 修正 [yang2024parallelizing; team2025kimi]。

显存占用。 Softmax 注意力 Transformer 的 KV cache 会按每层 $O(N)$ 增长，在固定 GPU 显存预算下限制最大上下文长度。线性注意力为每层维护固定大小状态（$O(d^2)$），与序列长度无关。实践中，这意味着 Kimi-Linear 可以在 4$×$A100 GPU 上处理最高 262k token，而同等规模 Transformer（Qwen3-30B-A3B [yang2025qwen3]）在相同硬件预算下限制在 131k token。

实际权衡。 线性注意力方法的单次查询延迟高于 embedding 查找（后者本质上是矩阵—向量乘法），但它消除了 embedding 预计算、向量数据库维护和单独总结调用的需求。对于 M3-Agent 中每个任务通常只查询少数几次记忆（约 1–5 轮）的智能体工作负载，其摊销成本是可比的。

实验与结果

我们在 M3-Bench 长视频问答基准 [long2025m3agent] 上评估线性注意力记忆替换方案，并将其与原始基于 embedding 的检索以及标准 Transformer 记忆后端进行比较。

实验设置

数据集。 我们使用 M3-Bench 的两个子集：

M3-Bench-robot：100 个室内环境中的机器人视角视频，共 1,276 个问答对。每个视频的片段数中位数为 67，覆盖人物理解、空间推理和跨模态问题。
M3-Bench-web：920 个来自网络的多样化视频，共 3,214 个问答对，覆盖更广泛的内容类型和难度。

记忆后端。 我们比较以下记忆后端，并将它们全部接入同一个 M3-Agent 控制管线：

Embedding：原始 M3-Agent 检索方式，使用 text-embedding-3-large embedding 和余弦相似度 top-$k$ 搜索 [long2025m3agent]。
Kimi-Linear：Kimi-Linear-48B-A3B [team2025kimi]（delta attention、MoE、约 3B 活跃参数），通过 vLLM 服务，在 4 张 GPU 上使用 tensor parallelism，最大上下文为 262k token。
Qwen3-30B-A3B：Qwen3-30B-A3B-Instruct [yang2025qwen3]（标准 Softmax 注意力、grouped-query attention、MoE、约 3B 活跃参数），最大上下文为 131k token。它作为活跃参数量匹配的 Transformer baseline。

在线性模型选择的消融实验中，我们还额外测试 RWKV-x060（1.6B）[peng2023rwkv] 和 Falcon3-Mamba（7B）[gu2024mamba]。

评测。 端到端问答准确率由 LLM judge 评估：它比较智能体答案与人工标注真值。对于检索相关消融，我们报告 Exact Hit@$k$（真值片段是否出现在 top-$k$ 检索片段中）、Near Hit（命中目标 $\pm 1$ 片段范围）、MRR（平均倒数排名）和 Recall@$k$。

除非特别说明，所有实验都直接把原始视频 caption 输入记忆模型（summary mode），因为它始终优于使用结构化记忆（见下文消融）。

主要结果：端到端问答准确率

下表展示了两个 M3-Bench 子集上的端到端问答准确率。

M3-Bench 上的端到端问答准确率（%）。所有方法使用相同的 M3-Agent 推理控制器，只有记忆后端不同。

记忆后端	Robot	Web
Embedding (text-embedding-3-large)	28.8	47.5
Qwen3-30B-A3B (softmax attention)	24.5	49.8
Kimi-Linear-48B-A3B (linear attention)	28.0	54.0

主要结果：M3-Bench 上的端到端问答准确率。

在 Web 子集上，Kimi-Linear 达到 54.0% 准确率，相比 embedding baseline 绝对提升 +6.5%，相比 Transformer baseline 提升 +4.2%。在 Robot 子集上，Kimi-Linear（28.0%）与 embedding baseline（28.8%）表现接近，0.8% 的差距处于评测方差范围内。

讨论。 Kimi-Linear 在 Web 子集上的强表现说明，线性注意力记忆模型在视频内容多样、需要灵活语义理解的场景中尤其有效——这正是刚性 embedding 检索容易漏掉相关信息的场景，因为相关信息未必与查询存在表层词汇重合。在 Robot 子集中，视频更结构化且更重复（室内环境、实体类型稳定），embedding 检索仍具竞争力。

消融实验

线性记忆为什么有效？检索 vs. 总结。 从主结果自然引出一个问题：既然线性注意力模型替代了 embedding 数据库，它的端到端问答提升究竟来自更强的检索，更强的总结，还是二者兼有？我们将这两种能力拆开分析。

检索准确率相近，而非显著更强。 我们通过绕过推理控制器，直接测试每个后端在给定查询时能否识别正确来源片段，从而隔离检索组件。下表报告了不同上下文长度（候选片段数）下的 Exact Hit@5。

M3-Bench-robot 和 M3-Bench-web 上不同上下文长度下的片段检索准确率（Exact Hit@5，%）。

Context	Robot	Web
	Kimi	Embed.	Kimi	Embed.
10	56.0	54.9	56.5	64.5
20	33.5	29.7	37.6	40.9
30	25.8	19.8	31.2	27.4
50	12.1	12.1	18.3	21.0
80	7.7	8.8	15.1	20.4
100	7.1	8.8	14.5	20.4

检索曲线：随着候选上下文增长，Exact Hit@5 下降。

两种方法在检索上大体相当，并且各有优势：Kimi-Linear 在中等上下文长度下更强（Robot 中 20–30 个片段，提升 +3.8% 到 +6.0%），而 embedding 检索在更长上下文（80+ 片段）下更稳健。没有一种方法完全占优。

优势主要来自总结能力。 既然单纯检索准确率无法解释 Kimi-Linear 在 Web 子集上 +6.5% 的端到端问答提升，那么优势应来自模型理解并总结检索上下文的能力——这是纯 embedding 检索本身不具备的能力。Embedding 管线返回原始文本片段，需要推理控制器再去解释；线性注意力模型则生成上下文综合后的答案，降低了控制器负担。

为了验证这一点，我们直接评估总结质量：给定 20 个事实性查询的相关记忆上下文，要求每个模型生成自然语言答案，并通过关键词匹配验证。

20 个事实性查询上的总结问答准确率（%），使用关键词匹配评测。

模型	准确率	关键词召回
Kimi-Linear-48B-A3B	95.0	95.0
RWKV-x060 (1.6B)	25.0	25.0
Falcon3-Mamba (7B)	5.0	5.0

Kimi-Linear 达到 95% 准确率，显著超过较小的线性模型。结合前面的检索分析，这一结果支持我们的核心发现：线性注意力记忆模型的优势并不是来自更强的检索器，而是来自把检索与总结折叠为一步，从而为推理控制器提供更高质量的信息。

线性注意力模型选择。 我们在 Robot 子集的 210 个查询上比较三种线性注意力模型的片段检索表现，以评估模型架构和规模如何影响检索质量。

M3-Bench-robot 上不同线性注意力模型的片段检索表现（%）。

模型	ExactHit	NearHit	MRR	R@5	R@10
Kimi-Linear (48B)	14.76	19.52	.049	8.10	14.76
RWKV-x060 (1.6B)	2.38	3.81	.021	2.38	2.38
Falcon3-Mamba (7B)	1.43	1.43	.014	1.43	1.43

线性模型选择：Kimi-Linear 在检索指标上显著占优。

Kimi-Linear 在所有指标上都大幅超过较小线性模型（ExactHit 相比 RWKV 高 6$×$，相比 Mamba 高 10$×$）。这一差距并不只是参数量造成的——Mamba（7B）尽管大于 RWKV（1.6B），表现却更差——说明架构质量（delta attention vs. selective state spaces vs. gated recurrence）以及预训练数据/recipe 至少与规模同等重要。

原始 caption vs. 结构化记忆。 我们比较两种记忆写入策略：直接把原始视频 caption 输入线性模型，或先通过 M3-Agent 的结构化实体中心记忆图 [long2025m3agent] 进行处理。结果如下表所示。

不同记忆写入策略下的端到端问答准确率（%）。

记忆格式	准确率
原始 caption	31.4
结构化记忆图	27.1

原始 caption 相比结构化记忆绝对提升 4.3%。这说明线性注意力模型的长上下文能力足以直接处理原始 caption，而 M3-Agent 中为 embedding 检索设计的结构化记忆处理，在搭配能够理解全文的模型时反而可能引入信息损失。该发现也与本文更广泛的动机一致：用学习得到的计算替代工程化启发式规则 [sutton2019bitter]。

上下文长度可扩展性

线性注意力相对 Softmax 注意力的一个关键理论优势，是在相同显存预算下可以处理更长上下文。我们在相同硬件（4$×$A100 80GB GPU）上比较 Kimi-Linear 与 Qwen3-30B-A3B 的最大可行上下文长度，以进行经验验证。

相同硬件（4$×$A100 80GB）下支持的最大上下文长度。

模型	最大上下文	约 token 数
Qwen3-30B-A3B (softmax)	131k	$∼$131k
Kimi-Linear-48B-A3B	262k	$∼$262k

在 needle-in-a-haystack 实验中，我们拼接多个视频的记忆来构造超长上下文。Qwen3-30B-A3B 在约 250k token（约 300 个片段）时因显存不足失败，而 Kimi-Linear 仍能继续运行。尽管随着上下文长度增加，两类模型的检索准确率都会下降——这是长上下文推理中的已知挑战 [behrouz2025titans]——线性注意力模型仍保持了处理输入的能力，而 Transformer 无法做到。

这种 2$×$ 上下文长度优势在长期运行的智能体部署场景中会愈发重要，因为这类智能体会随时间积累庞大的记忆存储。随着线性注意力模型质量继续提升，这种可扩展性差距预计会转化为越来越显著的实践优势。

结论

我们提出了一种简单且模块化的方法，为基于 LLM 的智能体配备参数化长期记忆：用一个通过对话执行记忆检索与总结的线性注意力语言模型，替换基于 embedding 的检索数据库。通过保持推理控制器和评测管线不变，我们隔离了记忆后端的影响，并证明这种可插拔替换既实用又有效。

主要发现。 在 M3-Bench 长视频理解基准上，Kimi-Linear-48B-A3B 在 Web 子集上达到 54.0% 端到端问答准确率，相比 embedding baseline（47.5%）绝对提升 6.5%，同时在 Robot 子集上表现接近（28.0% vs. 28.8%）。消融实验表明，优势并不来自更高的检索准确率——在线性注意力与 embedding 方法之间，检索表现大体相当——而是来自线性模型能够联合完成检索与总结，生成上下文综合后的答案，而不是原始记忆片段。在线性注意力模型之间，我们发现模型质量非常关键：Kimi-Linear（48B，delta attention）在检索和总结任务上都显著超过 RWKV（1.6B）和 Mamba（7B）。我们还表明，直接向线性模型输入原始 caption 优于结构化记忆预处理，这说明足够强的线性模型可以绕过传统记忆管线中的手工启发式设计——这与“学习得到的计算比工程规则更能随规模扩展”的原则一致 [sutton2019bitter]。

局限性。 本研究仍有若干局限。首先，Robot 子集上的性能差距可以忽略不计，说明线性注意力记忆并不一定在所有领域都稳定优于 embedding 检索。其次，虽然线性注意力相比同规模 Transformer 提供了 2$×$ 上下文长度优势，但在极长上下文下，所有模型的检索准确率仍然偏低，未来需要进一步提升长程回忆能力。第三，我们的评测仅限于一个应用领域（长视频理解）；该方法能否泛化到其他智能体任务（如多会话对话、文档分析、具身导航）仍有待验证。

未来方向。 本工作引出了若干有前景的方向。线性注意力架构正在快速演进——从简单加性更新，到 delta-rule 修正 [yang2024parallelizing]，再到深度神经记忆 [behrouz2025titans] 和 nested learning [behrouz2025nested]——这表明线性注意力与 Softmax 注意力之间的质量差距会持续缩小，使参数化记忆越来越有竞争力。探索状态缓存——跨查询复用线性模型隐藏状态以摊销上下文处理成本——可能显著降低延迟。与基于 RL 的记忆管理 [wang2025memalpha; yan2025memory] 集成，可以让智能体不仅学习何时查询记忆，还学习如何最优地写入并维护参数化记忆存储。更广泛地说，我们将本文视为通向“真正从经验中学习”的智能体的第一步：线性注意力记忆模型不仅是一个检索引擎，也是一种参数化系统，原则上可以通过测试时训练 [sun2024learning] 随着智能体积累新经验而持续更新其记忆表示。

参考文献

Vaswani, Ashish, Shazeer, Noam, Parmar, Niki, Uszkoreit, Jakob, Jones, Llion, Gomez, Aidan N, Kaiser, \Lukasz, Polosukhin, Illia. Attention is All You Need. Advances in Neural Information Processing Systems. 2017
Sun, Yu, Dong, Xupu, Menon, Shakul, Yuan, Dennis, Ma, Jay, Gupta, Abhishek, Verma, Nikhil, Ge, Yuexiang, Kolter, J Zico, Efros, Alexei A, others. Learning to (Learn at Test Time): RNNs with Expressive Hidden States. arXiv preprint arXiv:2407.04620. 2024
Bell, Jack, Quarantiello, Luigi, Coleman, Eric Nuertey, Li, Lanpei, Li, Malio, Madeddu, Mauro, Piccoli, Elia, Lomonaco, Vincenzo. The Future of Continual Learning in the Era of Foundation Models: Three Key Directions. arXiv preprint arXiv:2506.03320. 2025
Packer, Charles, Fang, Vivian, Patil, Shishir G, Lin, Kevin, Wooders, Sarah, Gonzalez, Joseph E. MemGPT: Towards LLMs as Operating Systems. arXiv preprint arXiv:2310.08560. 2023
Chhikara, Prateek, Khant, Dev, Aryan, Saket, Singh, Taranjeet, Yadav, Deshraj. Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory. arXiv preprint arXiv:2504.19413. 2025
Gu, Albert, Dao, Tri. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. First Conference on Language Modeling. 2024
Sun, Yutao, Dong, Li, Huang, Shaohan, Ma, Shuming, Xia, Yuqing, Xue, Jilong, Wang, Jianyong, Wei, Furu. Retentive Network: A Successor to Transformer for Large Language Models. arXiv preprint arXiv:2307.08621. 2023
Peng, Bo, Alcaide, Eric, Anthony, Quentin, Albalak, Alon, Arcadinho, Samuel, Biderman, Stella, Cao, Huanqi, Cheng, Xin, Chung, Michael, Grella, Matteo, others. RWKV: Reinventing RNNs for the Transformer Era. arXiv preprint arXiv:2305.13048. 2023
Yang, Songlin, Wang, Bailin, Shen, Yikang, Panda, Rameswar, Kim, Yoon. Gated Linear Attention Transformers with Hardware-Efficient Training. arXiv preprint arXiv:2312.06635. 2023
Qin, Zhen, Han, Xiaodong, Sun, Weixuan, Li, Dongxu, Kong, Lingpeng, Barnes, Nick, Zhong, Yiran. The Devil in Linear Transformer. arXiv preprint arXiv:2210.10340. 2022
Behrouz, Ali, Zhong, Peilin, Mirrokni, Vahab. Titans: Learning to Memorize at Test Time. arXiv preprint arXiv:2501.00663. 2025
Behrouz, Ali, Razaviyayn, Meisam, Zhong, Peilin, Mirrokni, Vahab. It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization. arXiv preprint arXiv:2504.13173. 2025
Behrouz, Ali, Razaviyayn, Meisam, Zhong, Peilin, Mirrokni, Vahab. Nested Learning: The Illusion of Deep Learning Architecture. arXiv preprint arXiv:2512.24695. 2025
Long, Lin, He, Yichen, Ye, Wentao, Pan, Yiyuan, Lin, Yuan, Li, Hang, Zhao, Junbo, Li, Wei. Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory. arXiv preprint arXiv:2508.09736. 2025
Team, Kimi, Zhang, Yu, Lin, Zongyu, Yao, Xingcheng, Hu, Jiaxi, Meng, Fanqing, Liu, Chengyin, Men, Xin, Yang, Songlin, Li, Zhiyuan, others. Kimi Linear: An Expressive, Efficient Attention Architecture. arXiv preprint arXiv:2510.26692. 2025
Zheng, Lin, Wang, Chong, Kong, Lingpeng. Linear Complexity Randomized Self-Attention Mechanism. International Conference on Machine Learning. 2022
Yang, Songlin, Wang, Bailin, Zhang, Yu, Shen, Yikang, Kim, Yoon. Parallelizing Linear Transformers with the Delta Rule over Sequence Length. Advances in Neural Information Processing Systems. 2024
Yang, Songlin, Wang, Bailin, Zhang, Yu, Shen, Yikang, Kim, Yoon. Gated Delta Networks: Improving Mamba2 with Delta Rule. arXiv preprint arXiv:2412.06464. 2024
Behrouz, Ali, Li, Zeman, Kacham, Praneeth, Daliri, Majid, Deng, Yuan, Zhong, Peilin, Razaviyayn, Meisam, Mirrokni, Vahab. Atlas: Learning to Optimally Memorize the Context at Test Time. arXiv preprint arXiv:2505.23735. 2025
Wang, Yu, Chen, Xi. MIRIX: Multi-Agent Memory System for LLM-Based Agents. arXiv preprint arXiv:2507.07957. 2025
Wang, Yu, Takanobu, Ryuichi, Liang, Zhiqi, Mao, Yuzhen, Hu, Yuanzhe, McAuley, Julian, Wu, Xiaojian. Mem-$\alpha$: Learning Memory Construction via Reinforcement Learning. arXiv preprint arXiv:2509.25911. 2025
Yan, Sikuan, Yang, Xiufeng, Huang, Zuchao, Nie, Ercong, Ding, Zifeng, Li, Zonggen, Ma, Xiaowen, Kersting, Kristian, Pan, Jeff Z, Sch\"utze, Hinrich, others. Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning. arXiv preprint arXiv:2508.19828. 2025
Zhou, Zijian, Qu, Ao, Wu, Zhaoxuan, Kim, Sunghwan, Prakash, Alok, Rus, Daniela, Zhao, Jinhua, Low, Bryan Kian Hsiang, Liang, Paul Pu. MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents. arXiv preprint arXiv:2506.15841. 2025
Yu, Hongli, Chen, Tinghong, Feng, Jiangtao, Chen, Jiangjie, Dai, Weinan, Yu, Qiying, Zhang, Ya-Qin, Ma, Wei-Ying, Liu, Jingjing, Wang, Mingxuan, others. MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent. arXiv preprint arXiv:2507.02259. 2025
Wu, Yaxiong, Liang, Sheng, Zhang, Chen, Wang, Yichao, Zhang, Yongyue, Guo, Huifeng, Tang, Ruiming, Liu, Yong. From Human Memory to AI Memory: A Survey on Memory Mechanisms in the Era of LLMs. arXiv preprint arXiv:2504.15965. 2025
Dohare, Shibhansh, Hernandez-Garcia, J Fernando, Rahman, Parash, Mahmood, A Rupam, Sutton, Richard S. Maintaining Plasticity in Deep Continual Learning. arXiv preprint arXiv:2306.13812. 2023
Yang, An, Li, Anfeng, Yang, Baosong, Zhang, Beichen, Hui, Binyuan, Zheng, Bo, Yu, Bowen, Gao, Chang, Huang, Chengen, Lv, Chenxu, others. Qwen3 technical report. arXiv preprint arXiv:2505.09388. 2025
Sutton, Richard. The Bitter Lesson. 2019

BibTeX

@misc{li2026linearattentionmemory,
  title = {Linear Attention as a Generalizable Memory Mechanism},
  author = {Li, Chenxin and Chen, Hao and Hu, Xuefeng},
  year = {2026},
  month = apr,
  howpublished = {Blog post},
  url = {https://chenxinli001.github.io/blogs/linear-attention-memory/}
}

返回 Blogs 返回主页

Linear Attention 作为可泛化记忆机制

摘要

引言

相关工作

线性注意力机制

LLM 智能体的记忆机制

测试时训练与持续学习

具有长期记忆的多模态智能体

方法

双模型架构

通过对话执行记忆操作

复杂度分析

实验与结果

实验设置

主要结果：端到端问答准确率

消融实验

上下文长度可扩展性

结论

参考文献

BibTeX

讨论

模型	最大上下文	约 token 数
Qwen3-30B-A3B (softmax)	131k	\(∼\)131k
Kimi-Linear-48B-A3B	262k	\(∼\)262k