大模型性能优化KV Cache

原理

KV Cache的本质就是避免重复计算，把需要重复计算的结果进行缓存，生成式模型的新的token的产生需要用到之前的所有token的 $K, V$ ，在计算注意力的时候是当前的 $Q$ 和所有的 $K, V$ 来进行计算，所以是缓存 $K, V$ 。

由于Causal Mask的存在，前面已经生成的token不需要与后面的token产生attention，也就是用不到前面token的 $Q$ ，用的上前面token的 $K, V$ ，具体的公式如下：
$att_1(Q,K,V)=softmax(\frac{Q_1K_1^T}{\sqrt{D}})V_1$
$att_2(Q,K,V)=softmax(\frac{Q_2K_1^T}{\sqrt{D}})V_1+softmax(\frac{Q_2K_2^T}{\sqrt{D}})V_2$
$att_3(Q,K,V)=softmax(\frac{Q_3K_1^T}{\sqrt{D}})V_1+softmax(\frac{Q_3K_2^T}{\sqrt{D}})V_2+softmax(\frac{Q_3K_3^T}{\sqrt{D}})V_3$

可以看出， $K, V$ 存在重复计算的情况，因此可以进行Cache。

KV Cache只适用于Decoder架构，因为有Causal Mask的存在，如果是Encoder，处理的是输入序列，是一次性完成整个序列attention的计算，并不像Decoder一样有自左向右的重复性的计算，Encoder由于其一次性和并行性，用不上KV-Cache，而解码器由于其自回归性，KV Cache是很有用的。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/35776.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！