안녕하세요. 이번에 "에세이"라는 카테고리를 출범하게 되었는데요. 지금까지 AI 엔지니어링 포스팅은 동작 원리나 내부구조를 이해하는 "이론"파트와 엔지니어링을 위해 고려해야하는 것들이나 아키텍처 설계와 같은 "실습"파트 이렇게 두개의 파트로 운영해왔습니다. 이번 포스팅은 처음엔 이론 공부를 하려고 했지만 정리하다보니 이론도 실습도 아닌 컬럼처럼 되어버려서 이렇게 에세이라는 카테고리로 새롭게 출범하게 되었습니다.
에세이 카테고리에서는 AI에 대한 컬럼 한편 본다고 생각하시고 편하게 보셔도 될 것 같습니다. 기술적인 이야기는 최대한 줄이고 AI 석박들, 혹은 개발자들이 이야기하는 AI 현상에 대해 제 생각을 이야기하는 카테고리로 운영될 것 같습니다.
그럼 본격적으로 시작해보죠!
LLM이 추상적인 개념을 표현하는 방법
LLM은 단어의 속성들을 "벡터"라는 형식으로 단어를 이해하고 답변을 생성합니다. 현재 LLM 모델들은 수만개의 차원으로 이루어진 벡터를 이용해서 답변을 생성하는데요. 예를 들어서 왕과 여왕은 "성별"만 다른 속성으로 LLM이 인지하고 있습니다. 하지만 이런 간단한 데이터 말고 "슬픔"같은 추상적인 개념은 어디에 저장될까요?
우리가 흔히 말하는 Embedding은 단순히 단어를 숫자로 바꾼 것이 아니라 수천, 수만개의 차원에 점을 찍는 행위입니다. 3차원 공간에서는 가깝다/멀다만 중요하지만 1만개가 넘는 차원에서는 서로 다른 "방향"이 존재할 수 있습니다.
특정 차원 하나가 "슬픔"이라는 단어를 담당하는 것이 아니고 수만개의 차원이 아주 복잡하게 조합된 특정한 방향 벡터 자체가 "슬픔"이라는 개념을 가리키게 되는 것이죠.
효율적인 압축의 비밀
LLM은 자신이 가진 뉴런 수보다 더 많은 개념을 저장해야하기 때문에 하나의 뉴런이 오직 하나의 의미에만 반응하는 것이 아니라 여러개의 뉴런을 동시에 활성화시킵니다. 예를 들어서 '강아지'라는 단어에 '강아지'만 반응하는게 아니라 '복슬복슬한', '충성심'같은 뉴런들이 동시에 반응하게 되는 것이죠.
LLM은 우리가 마치 거대한 데이터를 해시 함수로 압축해서 저장하듯이 수많은 개념들을 고차원 공간에서 최대한 겹치지 않게 쑤셔넣습니다. 하지만 너무 많은 개념을 겹쳐놓으면 모델이 헷갈려하는데 이걸 잘 분리해서 처리하는 능력이 바로 모델의 성능과 직결됩니다.
cf) LLM의 뉴런에 대응되는 개념이 뭘까? 진짜 뉴런은 아닐텐데...
LLM에서 말하는 뉴런은 모델별 각 레이어에 존재하는 개별 가중치 유닛입니다. 즉, 하드웨어라는 뜻인데 특정 입력값이 들어왔을 때 "이 개념이 얼마나 포함되어 있는가?"를 계산해서 신호로 보낼지 말지를 결정합니다.
그리고 수만개의 뉴런이 동시에 활성화된 '전체적인 패턴'이 바로 벡터입니다. 예를 들어서 1번 뉴런이 0.1, 2번 뉴런이 0.8, 3번 뉴런이 0.3 이런식으로 활성화된 수치를 한 줄로 세우면 그게 바로 그 시점에서의 '개념 벡터'가 되는 것이죠.
이걸 왜 뉴런이라고 부르게 되었냐하면 인간의 뇌에서도 '사과'와 같은 단어를 담당하는 뇌세포가 따로 있는게 아니고 사과를 볼 때 뇌 전체의 수많은 뉴런들이 '특정한 패턴'으로 반짝이게 되는데 LLM의 벡터가 바로 이 방식을 그대로 모방한 것이기 때문입니다.
얀 르쿤의 LLM 회의론
AGI라는 단어가 주는 마법
우리는 AGI라는 단어에 홀린듯이 반응합니다. 이제는 인간의 지능을 넘어선 무언가로 대충 뭉뚱그려서 얘기하는 것처럼 보이죠. 하지만 OpenAI의 창립자이자 한동안 OpenAI의 수석 과학자로 있으면서 GPT의 전성기를 이끌었던 일리야 수츠케버는 우리는 이미 AGI에 도달했고 AGI가 아닌 "초지능"에 도달해야한다고 이야기합니다.
왜 이런 이야기가 나오냐하면 AGI라는 단어가 생기기 시작했을 때의 AI로 거슬러 가면 이야기하기가 더 쉬운데요. 그때 당시 AI는 특정 문제를 잘 푸는 형태로 진화했습니다. 체스를 두는 AI, 바둑을 잘 두는 AI, 포커를 치는 AI 등등... 이때 많은 연구원들이 꿈꾸던 것이 있었으니 바로 "인간과 같은 일반적인 지능을 가진 AI를 만들자"였습니다.
그래서 이때 연구원들은 이런 AI를 일반 인공지능인 AGI라고 부르게 되었고 지금의 GPT나 Gemini, Claude 등등 다양한 언어모델은 인간과 대화가 가능한 일반 인공지능이라는 것이 일리야 수츠케버의 입장이었죠.
다만, 이를 모든 개발자, 연구원들이 받아들이지는 않고 흔히 AGI를 초지능과 같이 생각하는 경향이 아직 남아있습니다. 또한, 일반적인 사람들은 초지능을 AGI라고 생각하고 있기 때문에 굳이 이렇게 단어를 교정해줘야하나 싶기는 합니다.
아무튼 앞서 우리는 LLM이 추상적인 개념을 어떻게 저장하는지에 대해서 이야기햇고 이것이 얼핏 보면 인간 뇌의 그것과 많이 닮아있어 만은 연구원들이 놀라워했을 뿐만아니라 몇몇개의 문제들을 해결하기도 했습니다.
특히 개발쪽에서는 '코딩'이라는 노동이 점점 사라지고 있고, 이제 더 고차원적인 문제를 해결하거나 비즈니스 관점에서 문제를 해결하는 등 산업이 고도화되고 있습니다.
LLM 회의론
다만, AI 4대 석박이라고 불리우는 메타의 AI 수석 엔지니어 겸 뉴욕 대학교 교수인 얀 르쿤은 LLM의 한계에 대해서 지적합니다. 얀 르쿤은 현재의 LLM 방식이 결코 인간 수준의 지능에 도달할 수 없다고 못을 박는 아주 강경한 사람입니다. 어째서 얀 르쿤이 인간 뇌의 뉴런과 비슷하게 동작하는 LLM에 한계가 있다고 이야기하는걸까요?
얀 르쿤이 가장 강조하는 부분은 바로 현재 LLM 모델들은 "세계 모델"이 없다고 이야기합니다. 인간은 텍스트가 아니라 물리적 상호작용을 통해서 세상을 배우는 반면, LLM은 글로 세상을 배우죠. 이는 글로 수영을 배우는 것과 같고 이렇게 학습된 LLM은 결코 인간이 이해하는 것을 이해할 수 없다는 것이 얀 르쿤의 입장입니다.
LLM은 텍스트 데이터 사이의 통계적 상관관계만 학습하기 때문에 "컵을 놓치면 바닥으로 떨어진다"라는 문장은 알지만 실제 "중력"이라는 물리적 실체를 느껴본 적이 없죠.
이에 얀 르쿤은 현재의 LLM이 "박사급 지능"이라는 것을 언론에서 많이 다루지만 실제 "박사"는 아니라고 강하게 이야기합니다. 실제 박사는 어떤 물리현상에 대해 어떻게 다음 실험을 이어갈지에 대한 "판단"을 내리기 때문에 LLM은 이런 판단의 부재로 엄청나게 거대한 계산기 혹은 백과사전이라는 것이 얀 르쿤의 주장입니다.
또한, LLM은 단어를 하나씩 내뱉고 결괏값을 그대로 입력으로 넣어 다음 단어를 만드는데 반해, 인간은 말을 내뱉기 전에 결론을 먼저 내리고 그 목표를 향해 문장을 구사하는 "게획"을 하기 때문에 계획이나 추론 과정 없이 통계적으로 다음 단어를 찍어내는 방식으로는 복잡한 문제를 단계별로 해결하는 지능을 가질 수 없다고 이야기합니다.
이에 얀 르쿤은 JEPA라는 새로운 구조를 제안했습니다. JEPA는 LLM처럼 단어를 예측하는 대신 "세상의 구조를 예측하는" 모델입니다. 예를 들어 이미지나 영상의 다음 프레임을 픽셀 단위로 맞추는 것이 아니라 그 안에 담긴 "개념"과 "움직임"을 예측하는 방식이죠. 이를 통해 AI가 인간처럼 물리법칙을 이해하고, 목표를 달성하기 위해 행동을 "계획"할 수 있게 만들자는 것이 그의 핵심 아이디어입니다.
마치며
이런 AI가 언제쯤 등장하게 될까요? 등장하기만 한다면 정말 어마어마한 관심을 받게될 것임에는 분명합니다. 지금의 GPT니 Gemini니 다 의미가 없어질 수도 있고요. 제가 이런 격변의 시대에 살고있는 것이 가슴뛰고 재밌네요.
컴퓨터와 인터넷이 어떻게 변했는지 경험했던 우리 부모님 세대와 AI가 어떻게 변하고 있는지 경험하는 저희 세대가 얼추 비슷해보이더군요. 앞으로 어떻게 될지도 정말 흥미진진합니다. 정말 모든 직업이 사라질까? 아니면 인간이 밥그릇을 지키기 위해 기술적인 발전의 발목을 잡을까?
일리야 수츠케버의 말을 인용하면서 이번 포스팅 마무리 짓겠습니다.
"지금 AI와 관련된 법안이 매끄럽게 진행되지 않는건 우리가 아직 '실수하지 않는 AI'를 본 적이 없기 때문입니다. 당신은 실수하지 않는 AI를 생각해보신 적 있나요? 만약 이런 AI가 등장한다면 그때 본격적으로 시작될겁니다."
- 일리야 수츠케버 -