무슨 일이 일어났나
TTT-E2E 논문은 거대 언어 모델이 긴 입력을 받을 때 추론 중에 모델 웨이트 일부를 다시 학습시키는 방식을 제안해. 핵심은 어텐션을 전부 버리는 대신, 슬라이딩 윈도 구조 위에서 마지막 25% MLP 블록만 TTT 대상으로 두는 점이야.
- 논문 초록과 Figure 1 설명 기준으로, 3B 모델은 H100에서 128K 컨텍스트에서 full attention 대비 2.7배 빨랐어.
- 논문 본문 기준으로, TTT는 마지막 1/4 블록의 MLP만 업데이트하고 어텐션·embedding·normalization은 고정했어.
- NVIDIA Technical Blog 기준으로, 같은 결과 설명을 2M 컨텍스트까지 확장하면 full attention 대비 35배 빨랐어.
- 대신 NVIDIA Technical Blog는 짧은 컨텍스트 8K에서는 메타러닝 학습이 표준 사전학습보다 3.4배 느리다고 적어.
왜 이게 일어났나
거대 언어 모델이 긴 입력을 받으면 정확도가 떨어지고 속도도 느려져. 특히 full 어텐션 계산은 입력이 길어질수록 비용이 빠르게 커지니까 100만 토큰급 긴 문맥을 처리하려면 자원이 폭증해. TTT-E2E는 “긴 문맥은 일종의 데이터다. 추론 중에 그 데이터로 모델 웨이트 일부를 다시 학습시키자”는 발상이야. 모델 전체를 다시 학습시키지 않고 마지막 MLP 블록만 가변으로 두니까 비용 부담은 제한적이야.
어떤 의미인가
긴 문서나 큰 코드베이스 전체를 한 번에 거대 언어 모델에 넣는 워크플로우가 늘어나면서 이런 접근의 실무 가치는 분명해. 다만 판단 기준은 분리해서 보는 게 좋아.