분 단위 긴 영상을 만드는 자기회귀 확산 모델은 메모리 병목이 심해. 보통 고정 크기 슬라이딩 윈도우 KV 캐시를 쓰는데, 최근 연구들은 그 윈도우 안에서 어떤 토큰을 넣을지, 위치를 어떻게 인코딩할지만 손봤어. 2026년 5월 28일 arXiv에 올라온 VideoMLA는 캐시 레이아웃 자체를 바꿔.
방법은 이래. 헤드마다 따로 갖고 있던 키와 값을, 공유하는 저랭크 콘텐츠 잠재값 하나랑 공유 분리형 3D-RoPE 위치 키로 대체해. 저자들은 사전학습된 영상 어텐션이 실제로는 저랭크가 아닌데도(유효 랭크가 에너지 기준 99%) 왜 Multi-Head Latent Attention이 영상 확산에서 통하는지를 파고들었어. 쉽게 말하면, 헤드별로 중복 저장하던 걸 공유 구조로 압축한 거야.
결과 수치가 두 개 분명해. 캐시 계층마다 토큰당 KV 메모리가 92.7% 줄었고, 단일 B200 GPU에서 처리량이 1.23배 빨라졌어. 짧은 구간에선 기존 방식과 성능이 비슷하고, 긴 구간에선 비교한 방식 중 가장 좋은 점수를 냈어.
실무로 보면, 긴 영상 생성에서 메모리가 가장 큰 벽인데 그걸 토큰 선택이 아니라 캐시 구조를 바꿔서 푼다는 접근이야. 다만 동료심사 전 프리프린트라 92.7%·1.23배는 저자 자체 측정이고, B200 한 장 기준이라 다른 환경에선 달라질 수 있어.