어떤 문제를 짚었나

arXiv 2605.22823 논문은 Video-LLM이 단순한 방향 인식에서 무너지는 패턴을 짚었어. 단일 물체가 좌·우·상·하로 움직이는 영상을 줘도, 대부분의 VLM 계열 모델이 우연 수준의 정확도밖에 못 낸다는 거야.

저자들은 이 약점을 “direction binding gap”이라고 불러. 방향 정보 자체는 vision encoder와 projector, LLM 단계까지 선형적으로 살아 있는데, 답을 고르는 단계에서 그 신호가 연결되지 않는다고 본 거야.

어떻게 고쳤나

두 가지를 같이 내놨어. 첫째는 MoDirect라는 데이터셋 묶음으로, instruction tuning과 평가를 같은 축에서 할 수 있게 만들었어. 둘째는 DeltaDirect로, 인접 프레임 feature 차분에서 정규화된 2D motion vector를 예측하게 하는 projector-level objective야.

핵심은 모델 전체를 다시 학습시키는 게 아니라, projector 계층에 작은 신호를 추가했다는 점이야. 이 방식으로 motion direction 정확도가 25.9%에서 85.4%로 올랐고, 실제 환경 데이터에서도 vanilla baseline 대비 21.9 포인트 개선됐다고 보고해.

실무에서 이게 왜 중요한가

영상 분석을 모델에 맡기는 시나리오가 늘고 있는데, 방향이라는 가장 기본적인 정보가 약하다는 게 이번 논문의 메시지야. 운전 보조, 스포츠 분석, 보안 영상 자동 요약처럼 “움직이는 쪽”이 의미를 갖는 작업에 Video-LLM을 쓰려는 사람은 방향 정확도를 따로 점검할 필요가 있어.

벤치마크 수치 자체는 저자 자체 데이터셋 기준이라 일반화엔 시간이 더 걸려. 그래도 “Video-LLM의 일반 캡션 성능이 좋다 = 방향 인식도 잘한다”라는 가정을 지금 끊어야 한다는 점은 분명해. 모델을 선택할 때, 자기 데이터로 좌·우·상·하 같은 직선 케이스부터 짧게 검증해보는 게 합리적이야.