KDA(Kimi Delta Attention)的数学原理:从矩阵乘法到 Affine 变换
本文假设读者熟悉线性代数(矩阵乘法、外积、逆矩阵)和基本的序列模型概念。 摘要 本文推导了 KDA(Kimi Delta Attention)的 chunk-wise 并行算法。核心贡献: 证明 KDA 的 chunk 状态更新可表示为 Affine 变换:$\mathbf{S}' = \mathbf{M}\mathbf{S} + \mathbf{B}$ 通过 WY 表示 将残差计算分解为与历史状态无关的部分,实现并行计算 基于 Affine 变换的复合性质,推导出 CP(Context Parallel,上下文并行) 的数学基础 KDA 相比标准 Attention 的优势:$O(N)$ 复杂度、常数内存状态、适合超长序列。 目录 引言:从 Transformer 到 Linear Attention Linear Attention 的发展历程 符号表与约定 线性注意力:简单的起点 背景:从 GDN 到 KDA 核心引理 KDA 的状态更新机制 WY 表示:依赖的分离 核心定理:Chunk-wise Affine 形式 算法实现:从理论到代码 CP 并行与 SM 并行 总结 附录:GDN vs KDA 参考资料 引言:从 Transformer 到 Linear Attention 标准 Attention 的瓶颈 Transformer 架构自 2017 年提出以来,已成为自然语言处理和序列建模的主流方法。其核心组件 Self-Attention 机制通过计算序列中所有 token 两两之间的注意力权重来捕获长距离依赖: ...