안녕하세요, 이번엔 KV Cache에 대해서 공부해본 내용을 포스팅으로 정리해볼까 합니다. 요즘 AI 엔지니어링을 하면서 가장 고려해야하는 것이 바로 이 KV Cache가 점유하게되는 메모리를 관리하는 것인 것 같습니다. 그래서 이번엔 AI 엔지니어링을 하게되면 반드시 듣게되는 KV Cache란 무엇이고 이 KV Cache를 효율적으로 관리하기 위해 탄생한 다양한 기술들에 대해서 정리해보겠습니다. Attention이란?KV Cache를 알아보기 전에 먼저 Transformer의 Attention 연산에 대해서 언급하고 넘어가도록 하겠습니다. Transformer의 Attention 매커니즘에서 데이터를 처리할 때 (Inference 할 때) 각 토큰은 세 가지 역할을 부여받습니다. Query (Q) ..