한 줄 정의
Mixture of Experts는 입력마다 여러 전문가 네트워크 중 일부만 선택해 계산하는 모델 구조야. 이름만 보면 새 모델 계열처럼 들리지만, 실제로는 모델 내부에서 일을 나눠 처리하는 설계 방식이라고 보는 게 맞아.
어떻게 작동하나
모델 안에는 여러 전문가 모듈이 들어 있고, 별도의 게이트가 지금 들어온 토큰이나 입력에 어떤 전문가가 더 맞는지 골라준다. 모든 전문가가 동시에 다 일하는 게 아니라 보통 몇 개만 활성화되기 때문에, 전체 파라미터 수는 커져도 한 번 계산할 때 쓰는 양은 상대적으로 줄일 수 있어. 이 구조는 문제를 잘게 쪼개고 각 조각에 더 잘 맞는 계산 경로를 붙이는 방식에 가깝다. 예를 들어 어떤 입력은 수학적 패턴을 더 잘 다루는 전문가로, 어떤 입력은 일반 언어 패턴을 더 잘 다루는 전문가로 보내는 식이다.
왜 중요한가
실무에서는 성능을 올리면서도 계산 비용을 완전히 같은 비율로 늘리지 않으려 할 때 중요해. 특히 큰 모델을 운영할 때 모든 파라미터를 매번 다 쓰는 방식보다 효율을 끌어올릴 여지가 있어서, 같은 예산 안에서 더 큰 모델을 시도하는 선택지가 된다. 기사 해석에서도 중요해. 어떤 모델이 MoE라고 소개되면 단순히 “더 큰 모델”이라고 읽기보다, 전체 크기와 실제 한 번의 추론에서 활성화되는 부분이 다를 수 있다는 뜻으로 봐야 해. 그래서 파라미터 수, 속도, 비용, 품질을 비교할 때 숫자 하나만 보고 판단하면 자주 틀린다.
주의해서 볼 점
MoE가 항상 더 낫다는 뜻은 아니야. 게이트가 전문가를 잘못 고르면 특정 전문가에 일이 몰리거나, 일부 전문가가 거의 학습되지 않는 문제가 생길 수 있어서 학습 안정성과 균형 조절이 중요해. 또 “파라미터가 크다”는 말과 “매번 그만큼 계산한다”는 말은 다르다. MoE 모델은 총 파라미터 수가 매우 커 보여도 실제 추론에서는 일부만 활성화될 수 있으니, 홍보 문구를 읽을 때는 총량과 활성량을 분리해서 봐야 해.
관련 용어
- Transformer — Transformer는 전체 모델의 기본 뼈대에 가깝고, MoE는 그 안의 일부 층을 어떻게 구성할지에 대한 선택지야. 즉 Transformer가 차체라면 MoE는 엔진 배치 방식에 더 가깝다.
- Attention — Attention은 토큰끼리 어떤 정보를 참고할지 계산하는 메커니즘이고, MoE는 어떤 전문가 모듈을 호출할지 정하는 구조야. 둘 다 모델 내부 작동과 관련 있지만, Attention은 정보 연결 방식이고 MoE는 계산 경로 분기 방식이라는 차이가 있어.