분류 전체보기 564

AI가 나아가야하는 방향은 어디일까?

안녕하세요. 이번에 "에세이"라는 카테고리를 출범하게 되었는데요. 지금까지 AI 엔지니어링 포스팅은 동작 원리나 내부구조를 이해하는 "이론"파트와 엔지니어링을 위해 고려해야하는 것들이나 아키텍처 설계와 같은 "실습"파트 이렇게 두개의 파트로 운영해왔습니다. 이번 포스팅은 처음엔 이론 공부를 하려고 했지만 정리하다보니 이론도 실습도 아닌 컬럼처럼 되어버려서 이렇게 에세이라는 카테고리로 새롭게 출범하게 되었습니다. 에세이 카테고리에서는 AI에 대한 컬럼 한편 본다고 생각하시고 편하게 보셔도 될 것 같습니다. 기술적인 이야기는 최대한 줄이고 AI 석박들, 혹은 개발자들이 이야기하는 AI 현상에 대해 제 생각을 이야기하는 카테고리로 운영될 것 같습니다. 그럼 본격적으로 시작해보죠! LLM이 추상적인 개념을 ..

LLM한테 페르소나를 적용하면 어떻게 이를 수행하는걸까?

지금은 사람들에게 많이 알려진 프롬프트 엔지니어링 중에 가장 유명한 것이 바로 "페르소나"를 부여하는 것일건데요. LLM에게 페르소나를 부여하면 찰떡같이 잘 반응하게 되는데 내부적으로는 어떤 동작이 일어나길래 이 페르소나를 계속 유지할 수 있는걸까요? 요즘은 프롬프트 엔지니어링이라고 부르는 것이 유형별로 잘 정립되어있어서 우리같은 일반인도 충분히 적용시킬 수 있는 범주 내로 들어와 사실 "엔지니어링"이라고 거창하게 부를만한가 싶긴합니다. 다만, 이게 초반에 어째서 엔지니어링의 영역에 들어오게 되었는지 이번에 공부하면서 알게 되었는데, 이 프롬프트 엔지니어링이라는 것의 기반에는 Transformer 알고리즘의 이해가 필요했기 때문에 초기 단계에서는 이를 엔지니어링이라고 부를 정도의 무언가가 되었다고 생..

Transformer 알고리즘은 과거와 다르게 어떻게 발전했을까?

안녕하세요. 요즘 AI 엔지니어링 업무를 하면서 관련된 것들을 공부를 하니 더 재밌는 것 같네요. 이번 포스팅에선 Transformer 알고리즘이 담긴 논문이 출판됐을 당시부터 있었던 근본 개념들을 알아보면서 그때의 한계를 현재는 어떻게 극복했는지를 중점으로 정리할 예정입니다. LLM을 논하기 이전에 가장 중요한 개념이 바로 Transformer이고 개발자가 아닌 분들도 AI에 조금만 관심이 있다면 한 번쯤 들어봤을 내용인데요. 저는 이론 없는 실전은 기반 없이 무작정 높게만 쌓은 건축물이라는 철학이 강해서 현재 실전에서 충분히 써먹지 못하더라도 알고 안쓰는거랑 모르고 안쓰는거랑은 차이가 있다고 생각하는 주의입니다. AI 엔지니어링이라는 분야가 실제 그래픽카드 서버가 없으면 제약사항도 많아서 실전을 ..

기술 발전 순서로 알아보는 KV Cache

안녕하세요, 이번엔 KV Cache에 대해서 공부해본 내용을 포스팅으로 정리해볼까 합니다. 요즘 AI 엔지니어링을 하면서 가장 고려해야하는 것이 바로 이 KV Cache가 점유하게되는 메모리를 관리하는 것인 것 같습니다. 그래서 이번엔 AI 엔지니어링을 하게되면 반드시 듣게되는 KV Cache란 무엇이고 이 KV Cache를 효율적으로 관리하기 위해 탄생한 다양한 기술들에 대해서 정리해보겠습니다. Attention이란?KV Cache를 알아보기 전에 먼저 Transformer의 Attention 연산에 대해서 언급하고 넘어가도록 하겠습니다. Transformer의 Attention 매커니즘에서 데이터를 처리할 때 (Inference 할 때) 각 토큰은 세 가지 역할을 부여받습니다. Query (Q) ..

특명: 추론 속도를 올리기 위한 온몸 비틀기 (Speculative Decoding)

이번 포스팅은 AI 엔지니어링에서 추론 속도를 끌어올리기 위한 서커스 기술인 추측 디코딩, Speculative Decoding에 대해서 정리해보는 시간을 가져보겠습니다. AI 엔지니어링을 하다보면 자연스럽게 빠져드는 TPS를 높이기위한 여러가지 노력들에서 단연 빠지지않고 등장하는 개념이 바로 이 추측 디코딩인데요. 이번 포스팅에선 Speculative Decoding (이하 추측 디코딩)에 대해서 개념과 실전에서 사용할 때 주의해야할 점에 대해서 서술해볼까합니다. Speculative Decoding추측 디코딩은 transformer 기반의 LLM 모델들이 반복적인 문맥 확인을 위해 모든 문장을 확인하면서 (사실 모든 문장은 아닙니다. n_ctx에 해당하는 토큰만큼 확인합니다) 한단어씩 내뱉기 때문..

AI 엔지니어링과 EDA의 만남

안녕하세요, 요즘 이론 공부하는게 왜 이렇게 재밌죠... 근 5개월정도 글을 안쓰다가 오랜만에 쓰니까 글감이 폭발하는 것 같습니다. 이번 포스팅에선 AI 엔지니어링을 하면서 규모가 조금만 커져도 바로 고민해볼만한 "AI 엔지니어링과 EDA"라는 주제로 포스팅을 적어볼까합니다. 웹 백엔드에서의 EDAEDA는 흔히 Event Driven Architecture의 약자로 쓰이고 메세지 브로커를 도입하면서 특정 행동을 로직에서 뜯어내고 싶을 때 주로 사용합니다. 저는 이 단어를 보면서 너무 "이벤트"에 매몰되기 쉬운 단어 선택이라고 생각합니다. 우선 AI 엔지니어링말고 웹 백엔드 관점에서 EDA를 먼저 짚고 넘어가도록 하겠습니다. 우리가 웹 백엔드에서 EDA를, 많은 경우 카프카를 선택하게 되는 경위는 뭘..

회사생활 만으로 2년, 얻은 것은 무엇이고 잃은 것은 무엇인가

안녕하세요! 약 10개월만에 회고를 쓰게 되었습니다. 마침 취직한지 만으로 2년이 된 김에 걸어온 길을 정리할 겸 컴퓨터 앞에 앉았습니다. 본격적으로 글을 쓰기 전에 이직을 했다는 소식을 전해드리고자합니다. 웹 백엔드 개발에서 sLLM을 이용해서 AI 엔지니어링을 하고 있습니다. 이번 포스팅에서 꽤 비중있게 다뤄질 내용인데 이 주제를 가지고 개발 공부한지는 만으로 5년 회사생활 만으로 2년동안 얻은 것과 잃은 것에 대해서 고찰해보도록 하겠습니다. 기술에 대한 집착을 잃고 상황에 맞는 개발에 집중하다예전이라고 할 것도 없이 불과 2년전 취준을 할 때만 해도 세련되고 멋있는 기술에 대한 선망이 있었습니다. "기왕 가는 김에 쿠버네티스를 사용했으면 좋겠다." 혹은 "캐싱과 메세지 브로커가 있으면 좋겠다" ..

기타/회고 2026.01.14

vLLM은 어떻게 AI 엔지니어링에서 필수불가결한 선택지가 되었을까?

안녕하세요! 요즘 일이 좀 널널해져서 마지막으로 글 쓴지 1달만에 다시 포스팅을 하기위해 오랜만에 개인 컴퓨터 앞에 앉았습니다. 오늘 쓸 내용은 일하면서 쓸 일은 없지만 vLLM에 대해 관심이 생겨 공부한 내용을 정리하고자 합니다. KV Cache란?vLLM 얘기로 시작해서 KV Cache가 뜬금없이 왜 나오나싶지만 이 두개는 큰 연관이 있기 때문에 서론으로 집어넣어봤습니다. KV Cache의 본질로 들어가면 Attention 연산이라는게 나옵니다. 저도 깊이있게 이해한건 아니지만(무슨 수식이 한가득..) Attention 연산에는 세개의 매개변수가 필요합니다. Q (Query) : 현재 내가 찾고자 하는 정보에 대한 내용 (질문)K (Key) : 현재 내가 가지고 있는 정보 (인덱스)V (Value..

양자화란 무엇인가

4개월만에 블로그 포스팅을 재개하게 되었네요. 이런저런 난관도 있었고 새로운 직장에 안착해서 자리잡아야 했고 새로운 프로젝트에 투입되어 AIOps를 위해 개발하느라 포스팅이 늦어졌습니다. 이번 회사에서 제 커리어를 웹 백엔드에서 AIOps로 변경하게 되었는데 우선은 아직 새로운 것도 많고 공부할 것도 많아 바쁜 하루하루를 보내고 있었습니다. 우선 이직과 관련된 내용이나 직종을 어떻게 변경하게 되었는지는 회고에서 더 자세히 풀도록 하고, 지금 제가 개발하는 AIOps에서 필요한 이론 공부를 요즘 중점적으로 하고 있습니다. 이번 포스팅에선 LLM을 이용해 개발하는 사람들은 모두 들어봤을 양자화에 대해서 공부해보고 더 나아가 첫 포스팅인만큼 용어정리, 파인튜닝에 대한 간단한 개요까지 적어볼까합니다. 부동..

CPU는 어떻게 여러가지 일을 한번에 처리할까?

최근 스레드 풀에 대해서 공부하기 전에 스레드가 어떻게 운영체제에서 관리되는지 공부하기 위해 찾아보다 "스레드 생성 비용과 스레드 풀과의 관계" 포스팅을 작성했던 기억이 있어서 다시 찾아보게 되었습니다. PCB와 TCB에 대한 내용이었는데 겉핥기 식으로 이 둘에 대해 알고 있었다보니 이번 기회에 제대로 공부하자고 마음먹고 공부하게 되었습니다. 이번 포스팅은 PCB에 대한 내용이 주된 내용이지만 PCB와 연관이 깊은 컨텍스트 스위칭도 같이 정리해보도록 하겠습니다. PCB (Process Control Block)PCB는 운영체제가 프로세스를 관리하기위해 사용하는 자료구조입니다. 프로세스를 관리하기 위한 메타데이터가 저장되어 있고 주요 메타 데이터로는 PID, Program Counter, Regist..