DPLR(Diagonal Plus Low Rank)的数学原理:显式转移矩阵的并行计算

本文假设读者熟悉线性代数(矩阵乘法、外积、逆矩阵)和基本的序列模型概念,建议先阅读 KDA 数学原理。 摘要 本文推导了 DPLR(Diagonal Plus Low Rank) 的 chunk-wise 并行算法。DPLR 是广义 Delta Rule 的重要变体,被应用于 RWKV-7 等架构中。核心贡献: 建立 DPLR 的显式转移矩阵形式:$\mathbf{P}_t = \text{diag}(\exp(\mathbf{g}_t)) + \mathbf{b}_t \mathbf{a}_t^T$ 推导 DPLR 的 WY 表示,将累积转移矩阵分解为对角部分与低秩部分之和 证明 DPLR 同样满足 Affine 变换形式,天然支持 CP 并行 对比 DPLR、KDA、IPLR 的异同,揭示线性注意力家族的统一数学框架 DPLR 相比标准 Delta Rule 的优势:显式控制对角衰减(dim-wise forgetting)和低秩更新,表达力更强,但在 chunk 形式下显著的引入了额外的计算复杂度,需要更多的 HBM 空间来存储中间变量。 目录 引言:从 Delta Rule 到 DPLR 符号表与约定 核心引理 DPLR 的递推形式 WY 表示:累积转移矩阵的分解 核心定理:Chunk-wise Affine 形式 算法实现:从理论到代码 DPLR vs KDA vs IPLR CP 并行与多级并行 总结 引言:从 Delta Rule 到 DPLR Delta Rule 的局限性 标准 Delta Rule(以及没有遗忘门的 GDN/KDA)的状态更新可以写成: ...

2026年2月21日 · 9 分钟 · 1892 字 · Zhiyuan Li

KDA(Kimi Delta Attention)的数学原理:从矩阵乘法到 Affine 变换

本文假设读者熟悉线性代数(矩阵乘法、外积、逆矩阵)和基本的序列模型概念。 摘要 本文推导了 KDA(Kimi Delta Attention)的 chunk-wise 并行算法。核心贡献: 证明 KDA 的 chunk 状态更新可表示为 Affine 变换:$\mathbf{S}' = \mathbf{M}\mathbf{S} + \mathbf{B}$ 通过 WY 表示 将残差计算分解为与历史状态无关的部分,实现并行计算 基于 Affine 变换的复合性质,推导出 CP(Context Parallel,上下文并行) 的数学基础 KDA 相比标准 Attention 的优势:$O(N)$ 复杂度、常数内存状态、适合超长序列。 目录 引言:从 Transformer 到 Linear Attention Linear Attention 的发展历程 符号表与约定 线性注意力:简单的起点 背景:从 GDN 到 KDA 核心引理 KDA 的状态更新机制 WY 表示:依赖的分离 核心定理:Chunk-wise Affine 形式 算法实现:从理论到代码 CP 并行与 SM 并行 总结 附录:GDN vs KDA 参考资料 引言:从 Transformer 到 Linear Attention 标准 Attention 的瓶颈 Transformer 架构自 2017 年提出以来,已成为自然语言处理和序列建模的主流方法。其核心组件 Self-Attention 机制通过计算序列中所有 token 两两之间的注意力权重来捕获长距离依赖: ...

2026年2月17日 · 14 分钟 · 2952 字 · Zhiyuan Li

本站技术栈

技术栈 本站使用以下技术构建: 技术 用途 Hugo 极速静态网站生成器 PaperMod 简洁优雅的 Hugo 主题 GitHub Pages 免费静态网站托管 GitHub Actions 自动部署 特点 极速构建:Hugo 的 Go 实现确保秒级构建 SEO 友好:内置 Open Graph、Twitter Cards、结构化数据 暗/亮模式:自动跟随系统主题 全文搜索:基于 Fuse.js 的站内搜索 响应式设计:完美适配移动端 部署流程 1 本地写作 → Git Push → GitHub Actions → GitHub Pages → 线上访问 完全自动化的部署流程,专注于内容创作。 Powered by Kimi K2.5 🌙

2026年2月16日 · 1 分钟 · 51 字 · Zhiyuan Li