안녕하세요! 오랜만에 블로그 포스팅으로 써보고싶은 주제가 생각나서 컴퓨터 앞에 앉았습니다. 이번 주제는 실제로 있을법한 일을 재구성해서 엔지니어링적으로 문제를 해결하는 과정을 써볼까합니다. 요즘 엉덩이 무거운 금융권도 AI를 도입하려고 여기저기서 난리다보니 국내기준 모든 개발자 수요가 줄었지만 AI엔지니어는 수요가 폭발하고 있는 상황입니다. 하지만 저는 AI엔지니어링.. 그 끝은 백엔드와 닿아있다는걸 깨닫게 되는건 그리 오래걸리지 않았습니다. 상황은 이렇습니다. 고객이 AI를 도입하는데 그래픽카드 서버를 한대만 주겠다고 하는 상황이죠. 이때 우리가 할 수 있는 다양한 해결책을 생각해봅시다. sLLM을 올리는건 문제가 안됩니다만 문제는 사용자마다 들어나는 KV Cache이죠. 보통 나쁘지않은 질답이..