안녕하세요! 요즘 일이 좀 널널해져서 마지막으로 글 쓴지 1달만에 다시 포스팅을 하기위해 오랜만에 개인 컴퓨터 앞에 앉았습니다. 오늘 쓸 내용은 일하면서 쓸 일은 없지만 vLLM에 대해 관심이 생겨 공부한 내용을 정리하고자 합니다. KV Cache란?vLLM 얘기로 시작해서 KV Cache가 뜬금없이 왜 나오나싶지만 이 두개는 큰 연관이 있기 때문에 서론으로 집어넣어봤습니다. KV Cache의 본질로 들어가면 Attention 연산이라는게 나옵니다. 저도 깊이있게 이해한건 아니지만(무슨 수식이 한가득..) Attention 연산에는 세개의 매개변수가 필요합니다. Q (Query) : 현재 내가 찾고자 하는 정보에 대한 내용 (질문)K (Key) : 현재 내가 가지고 있는 정보 (인덱스)V (Value..