Low Rank

本文假设读者熟悉线性代数（矩阵乘法、外积、逆矩阵）和基本的序列模型概念，建议先阅读 KDA 数学原理。摘要本文推导了 DPLR（Diagonal Plus Low Rank）的 chunk-wise 并行算法。DPLR 是广义 Delta Rule 的重要变体，被应用于 RWKV-7 等架构中。核心贡献：建立 DPLR 的显式转移矩阵形式：$\mathbf{P}_t = \text{diag}(\exp(\mathbf{g}_t)) + \mathbf{b}_t \mathbf{a}_t^T$ 推导 DPLR 的 WY 表示，将累积转移矩阵分解为对角部分与低秩部分之和证明 DPLR 同样满足 Affine 变换形式，天然支持 CP 并行对比 DPLR、KDA、IPLR 的异同，揭示线性注意力家族的统一数学框架 DPLR 相比标准 Delta Rule 的优势：显式控制对角衰减（dim-wise forgetting）和低秩更新，表达力更强，但在 chunk 形式下显著的引入了额外的计算复杂度，需要更多的 HBM 空间来存储中间变量。目录引言：从 Delta Rule 到 DPLR 符号表与约定核心引理 DPLR 的递推形式 WY 表示：累积转移矩阵的分解核心定理：Chunk-wise Affine 形式算法实现：从理论到代码 DPLR vs KDA vs IPLR CP 并行与多级并行总结引言：从 Delta Rule 到 DPLR Delta Rule 的局限性标准 Delta Rule（以及没有遗忘门的 GDN/KDA）的状态更新可以写成： ...