트랜스포머
트랜스포머는 셀프 어텐션(self-attention) 메커니즘을 기반으로 입력 시퀀스의 모든 토큰 간 관계를 한 번에 계산하는 신경망 아키텍처입니다. 2017년 구글 연구진의 'Attention Is All You Need' 논문에서 제안되었으며, GPT·Claude·BERT 등 현대 거대 언어 모델(LLM)의 토대가 됩니다.
- 트랜스포머는 순환(RNN)과 합성곱(CNN)을 걷어내고 오직 어텐션만으로 시퀀스를 처리하는 신경망 아키텍처입니다.
- 핵심은 셀프 어텐션으로, 문장 안의 모든 단어가 서로를 동시에 참조해 문맥적 의미를 계산합니다.
- 2017년 구글 논문 'Attention Is All You Need'(arXiv:1706.03762)에서 처음 제안되었습니다.
- 순차 처리가 없어 GPU·TPU에서 대규모 병렬 학습이 가능하며, 이 확장성이 오늘날 LLM 시대를 열었습니다.
- GPT·Claude·BERT를 비롯한 현대 거대 언어 모델 대부분이 트랜스포머를 기반으로 합니다.
트랜스포머란 무엇인가
트랜스포머는 셀프 어텐션(self-attention) 메커니즘을 기반으로 입력 시퀀스 안의 모든 토큰 간 관계를 한 번에 계산하는 신경망 아키텍처입니다. 2017년 구글 연구진이 발표한 논문 'Attention Is All You Need'에서 처음 제안되었으며, 기존 시퀀스 모델의 주류였던 순환 신경망(RNN)과 합성곱 신경망(CNN)을 완전히 걷어내고 어텐션만으로 언어를 처리한다는 점에서 큰 전환점이 되었습니다.
그 이전의 RNN 계열 모델은 단어를 앞에서 뒤로 한 개씩 순차적으로 읽었기 때문에, 멀리 떨어진 단어 사이의 관계를 학습하기 어렵고 병렬화에도 제약이 있었습니다. 트랜스포머는 문장 전체를 동시에 바라보면서 단어 간 의존 관계를 단일 연산으로 포착하며, 이 구조 덕분에 GPU·TPU에서 대규모 병렬 학습이 가능해졌습니다. 바로 이 확장성이 GPT, Claude, BERT 같은 거대 언어 모델(LLM)이 등장할 수 있었던 토대입니다.
핵심 구성 요소
셀프 어텐션 (Self-Attention)
셀프 어텐션은 문장 안의 각 단어를 다른 모든 단어와 비교해 '얼마나 관련 있는가'를 점수로 매기고, 그 점수에 따라 각 단어의 표현(representation)을 새로 구성하는 과정입니다. 예를 들어 "The animal didn't cross the street because it was too tired"라는 문장에서 'it'을 처리할 때, 셀프 어텐션은 'it'이 'animal'을 가리킨다는 연결을 직접 학습합니다. 단어의 위치가 멀리 떨어져 있어도 한 번의 연산으로 관계를 파악한다는 점이 RNN과의 결정적 차이입니다.
어텐션 계산은 각 단어 임베딩으로부터 학습된 가중치 행렬을 곱해 만든 세 종류의 벡터, 즉 쿼리(Query)·키(Key)·값(Value)을 이용합니다. 쿼리와 키의 유사도로 어텐션 점수를 구하고, 그 점수로 값 벡터를 가중 합산해 문맥이 반영된 새 표현을 얻습니다.
멀티헤드 어텐션과 위치 인코딩
트랜스포머는 어텐션을 한 번만 수행하지 않고, 서로 다른 가중치 행렬을 가진 여러 개의 어텐션 '헤드'를 병렬로 둡니다(멀티헤드 어텐션). 이를 통해 문법적 관계, 의미적 관계 등 서로 다른 종류의 연결을 동시에 포착합니다. 한편 모델이 단어를 순차가 아닌 병렬로 처리하기 때문에 단어 순서 정보가 사라지는데, 이를 보완하기 위해 각 단어 임베딩에 위치 정보를 담은 벡터를 더해 주는 위치 인코딩(positional encoding)을 사용합니다.
인코더와 디코더
원 논문의 트랜스포머는 인코더와 디코더가 각각 여러 층으로 쌓인 구조였습니다. 인코더는 입력 시퀀스를 문맥이 반영된 표현으로 변환하고, 디코더는 그 표현을 바탕으로 출력 시퀀스를 생성합니다. 이후 응용에서는 이 구조가 분화되어, BERT는 인코더만, GPT 계열은 디코더만 사용하는 식으로 목적에 맞게 변형되어 왔습니다.
의의와 근거
'Attention Is All You Need' 논문(Vaswani 외, 2017)은 트랜스포머가 기계 번역에서 기존 모델보다 품질이 높으면서도 학습이 더 빠르고 병렬화가 쉽다는 점을 실험으로 보였습니다. 구체적으로 WMT 2014 영어→독일어 번역에서 28.4 BLEU를 기록해 당시 최고 성능을 2 BLEU 이상 끌어올렸고, 영어→프랑스어 번역에서는 41.8 BLEU로 단일 모델 기준 최고 성능을 달성했습니다.
같은 해 구글 AI 블로그(Jakob Uszkoreit, 2017년 8월 31일)는 트랜스포머가 RNN·CNN과 달리 문장 안 모든 단어 관계를 일정한 수의 연산으로 처리하며, 학습 속도를 최대 한 자릿수 배수(order of magnitude) 수준까지 끌어올린다고 설명했습니다. 이러한 학습 효율과 확장성은 이후 모델 규모를 키울수록 성능이 향상되는 흐름으로 이어졌고, 오늘날 대화형 AI와 생성형 검색을 떠받치는 핵심 아키텍처로 자리잡았습니다.