한 줄 정의

Transformer는 문장이나 입력 안에 있는 토큰들이 서로 어떤 부분을 참고해야 하는지 attention으로 계산하는 신경망 아키텍처야. 중요한 점은 이게 새 모델 이름이 아니라, 여러 모델이 공통으로 깔고 가는 내부 구조라는 거야.

어떻게 작동하나

입력이 들어오면 각 토큰은 다른 토큰들과의 관련성을 점수처럼 계산하고, 그 결과를 바탕으로 자기 표현을 계속 업데이트해. 그래서 앞의 몇 글자만 순서대로 끌고 가는 방식보다 문장 전체의 관계를 더 직접적으로 반영할 수 있어. 초기의 Transformer는 encoder와 decoder로 나뉘었고, 이후 언어 모델에서는 decoder 중심 구조가 많이 쓰였어. 핵심은 recurrence 없이 attention을 중심에 두고 계산을 조직한다는 점이라서, 긴 문맥 처리와 병렬 계산에 유리한 기반을 만들었어.

왜 중요한가

실무에서는 Transformer를 이해해야 모델 성능 얘기와 인프라 얘기를 같이 읽을 수 있어. 왜 GPU를 많이 쓰는지, 왜 긴 컨텍스트에서 비용이 커지는지, 왜 attention 최적화가 자주 화제가 되는지가 이 구조와 바로 연결돼 있어. 기사 해석에서도 중요해. ‘트랜스포머를 넘었다’, ‘attention 병목을 줄였다’, ‘새 아키텍처를 썼다’ 같은 표현은 보통 앱 기능 추가가 아니라 모델 내부 설계가 바뀌었다는 뜻이야. 그래서 이 단어를 제품 라인업처럼 읽으면 발표 내용을 잘못 이해하기 쉬워.

주의해서 볼 점

Transformer가 강력한 구조인 건 맞지만, attention 계산 비용이 입력 길이에 따라 빠르게 커진다는 약점도 같이 따라와. 그래서 긴 문서를 다루거나 실시간 처리가 중요한 환경에서는 attention 자체를 줄이거나 우회하는 변형이 계속 나와. 또 Transformer 하나만 안다고 모델 전체를 다 안 건 아니야. 학습 데이터, 파라미터 수, 추론 최적화, 안전성 조정이 결과를 크게 바꾸기 때문이야. 현실에서는 ‘Transformer 기반’이라는 말보다 어떤 변형을 얹었는지가 성능 차이를 더 크게 만들 때도 많아.

관련 용어

  • Attention — Attention은 토큰끼리 무엇을 얼마나 참고할지 정하는 계산 방식이고, Transformer는 그 attention을 중심으로 모델 전체를 짜는 아키텍처야. 둘을 같은 뜻으로 보면 계산 규칙과 전체 설계를 구분하지 못하게 돼.
  • Mixture of Experts — Mixture of Experts는 입력마다 일부 전문가 모듈만 골라 쓰는 방식이야. Transformer가 기본 뼈대라면, Mixture of Experts는 그 뼈대 위에 계산량과 용량을 조절하려고 얹는 확장 전략에 가까워.