무슨 일이 있었나

Google이 Gemma 4를 발표할 때 언급하지 않은 기능이 있었어 — MTP(Multi-Token Prediction) 드래프터가 모델 내부에 숨어 있었던 거야. 커뮤니티 개발자가 LiteRT-LM 포맷을 역공학해서 꺼냈어.

추출 방법은 이래. Google의 litertlm_peek_main CLIlitertlm_peek_main 파일 내부를 열면 Section11_TFLiteModel_tf_lite_mtp_drafter.tflite라는 파일이 있어. 이 파일이 MTP 드래프터야. C++ 구현체(llm_litert_mtp_drafter)가 딸려 있고, “end-to-end 드래프팅”에 쓰이는 구조다.

왜 중요할까

MTP는 추론 속도를 높이는 기술이야. 다음 토큰 1개만 예측하는 대신, 여러 토큰을 동시에 예측해서 디코딩 단계를 줄여. DeepSeek V3에서 토큰/초 기준 최대 2배 향상을 보여줬던 방식인데, Gemma 4에도 같은 구조가 심겨 있었던 거야.

앞으로 볼 점

지금은 TFLite 파일 추출까지만 됐고, PyTorch로 변환하는 작업이 커뮤니티에서 진행 중이야. Google이 언제 이걸 공식 지원할지는 미발표 상태야. 역공학 진행 상황은 HuggingFace에서 볼 수 있어.