이번 포스팅은 AI 엔지니어링에서 추론 속도를 끌어올리기 위한 서커스 기술인 추측 디코딩, Speculative Decoding에 대해서 정리해보는 시간을 가져보겠습니다. AI 엔지니어링을 하다보면 자연스럽게 빠져드는 TPS를 높이기위한 여러가지 노력들에서 단연 빠지지않고 등장하는 개념이 바로 이 추측 디코딩인데요. 이번 포스팅에선 Speculative Decoding (이하 추측 디코딩)에 대해서 개념과 실전에서 사용할 때 주의해야할 점에 대해서 서술해볼까합니다. Speculative Decoding추측 디코딩은 transformer 기반의 LLM 모델들이 반복적인 문맥 확인을 위해 모든 문장을 확인하면서 (사실 모든 문장은 아닙니다. n_ctx에 해당하는 토큰만큼 확인합니다) 한단어씩 내뱉기 때문..