무슨 일이 일어났나

TTT-E2E 논문거대 언어 모델이 긴 입력을 받을 때 추론 중에 모델 웨이트 일부를 다시 학습시키는 방식을 제안해. 핵심은 어텐션을 전부 버리는 대신, 슬라이딩 윈도 구조 위에서 마지막 25% MLP 블록만 TTT 대상으로 두는 점이야.

  • 논문 초록과 Figure 1 설명 기준으로, 3B 모델H100에서 128K 컨텍스트에서 full attention 대비 2.7배 빨랐어.
  • 논문 본문 기준으로, TTT는 마지막 1/4 블록의 MLP만 업데이트하고 어텐션·embedding·normalization은 고정했어.
  • NVIDIA Technical Blog 기준으로, 같은 결과 설명을 2M 컨텍스트까지 확장하면 full attention 대비 35배 빨랐어.
  • 대신 NVIDIA Technical Blog는 짧은 컨텍스트 8K에서는 메타러닝 학습이 표준 사전학습보다 3.4배 느리다고 적어.

왜 이게 일어났나

거대 언어 모델이 긴 입력을 받으면 정확도가 떨어지고 속도도 느려져. 특히 full 어텐션 계산은 입력이 길어질수록 비용이 빠르게 커지니까 100만 토큰급 긴 문맥을 처리하려면 자원이 폭증해. TTT-E2E는 “긴 문맥은 일종의 데이터다. 추론 중에 그 데이터로 모델 웨이트 일부를 다시 학습시키자”는 발상이야. 모델 전체를 다시 학습시키지 않고 마지막 MLP 블록만 가변으로 두니까 비용 부담은 제한적이야.

어떤 의미인가

긴 문서나 큰 코드베이스 전체를 한 번에 거대 언어 모델에 넣는 워크플로우가 늘어나면서 이런 접근의 실무 가치는 분명해. 다만 판단 기준은 분리해서 보는 게 좋아.

  • 긴 문맥이 핵심인 작업에서는 추론 비용 절감 효과가 클 수 있어.
  • 추론웨이트가 바뀌면 같은 입력에서도 결과가 미세하게 달라질 수 있어서, 재현성이 중요한 작업은 별도 검토가 필요해.
  • 짧은 입력 위주 워크로드라면 8K 기준 3.4배 느린 메타러닝 학습 비용이 오히려 손해일 수 있어.