개발놀이터

  • 홈
  • 태그
  • 방명록

2026/01/19 1

특명: 추론 속도를 올리기 위한 온몸 비틀기 (Speculative Decoding)

이번 포스팅은 AI 엔지니어링에서 추론 속도를 끌어올리기 위한 서커스 기술인 추측 디코딩, Speculative Decoding에 대해서 정리해보는 시간을 가져보겠습니다. AI 엔지니어링을 하다보면 자연스럽게 빠져드는 TPS를 높이기위한 여러가지 노력들에서 단연 빠지지않고 등장하는 개념이 바로 이 추측 디코딩인데요. 이번 포스팅에선 Speculative Decoding (이하 추측 디코딩)에 대해서 개념과 실전에서 사용할 때 주의해야할 점에 대해서 서술해볼까합니다. Speculative Decoding추측 디코딩은 transformer 기반의 LLM 모델들이 반복적인 문맥 확인을 위해 모든 문장을 확인하면서 (사실 모든 문장은 아닙니다. n_ctx에 해당하는 토큰만큼 확인합니다) 한단어씩 내뱉기 때문..

AI Engineering/이론 2026.01.19
이전
1
다음
더보기
프로필사진

개발놀이터

  • 분류 전체보기 (560) N
    • Java (37)
    • Spring (101)
      • Spring (65)
      • Spring Security (11)
      • Spring Batch (25)
    • JPA (28)
      • JPA (22)
      • QueryDSL (6)
    • 사이드 프로젝트 (42)
      • 순수 자바로 스프링 만들기 (7)
      • 온라인 쇼핑몰 ver.1 (1)
      • 온라인 쇼핑몰 ver.2 (6)
      • 온라인 쇼핑몰 ver.3 (5)
      • 온라인 쇼핑몰 ver.4 (9)
      • 온라인 쇼핑몰 ver.5 (5)
      • 온라인 쇼핑몰 ver.6 (4)
      • 중고마켓 (5)
    • 오류해결 (13)
    • DevOps (63)
      • AWS (17)
      • Docker (12)
      • CI , CD (5)
      • Kubernetes (21)
      • Apache Kafka (5)
      • 사고실험 (3)
    • AI Engineering (4) N
      • 이론 (4) N
      • 실습 (0)
    • 리팩토링 (15)
      • GOF 디자인패턴 (4)
      • 코딩 스탠다드 (6)
    • CS 지식 (175)
      • 면접준비 (78)
      • 데이터베이스 (51)
      • 네트워크 (18)
      • 자료구조, 알고리즘 (9)
      • 운영체제 (14)
      • 보안 (5)
    • 기타 (80)
      • 코딩테스트 (38)
      • 리액트 (3)
      • 회고 (10)
      • GPT야 이것좀 알려줘 (3)
      • 오늘의 책 (4)
      • 영어공부 (22)
      • 일기 (0)

Tag

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

  • 개발을 좋아하는 마늘냄새폴폴입니다!

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/01   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바