무슨 일이 있었나

연구진 8명이 로봇이 행동을 배우는 월드 모델 RepWAM을 arXiv에 올렸어. 핵심은 입력을 다루는 토크나이저를 바꾼 거야. 기존 월드 액션 모델(WAM)은 영상 생성 모델에서 가져온 토크나이저를 그대로 쓰는데, 이건 화면을 픽셀 단위로 복원하는 데 최적화돼 있어. RepWAM은 복원 대신 의미를 담는 토큰을 쓰자고 제안해.

왜 복원으론 부족한가

화면을 똑같이 복원하는 건 보기엔 그럴듯해도, 로봇이 “이 명령을 받으면 뭘 해야 하나”를 배우는 데는 도움이 적어. 미래 화면 예측과 실제 로봇 제어를 잇는 동역학을 가르치기엔 픽셀 복원이 주는 신호가 제한적이라는 거지. 그래서 RepWAM은 시각 입력을 두 갈래로 쪼개. 화면을 나타내는 시각 토큰과, 그 화면들을 잇는 행동을 나타내는 잠재 행동 토큰을 정렬해서 만들어.

어떻게 동작하나

학습은 세 단계로 이어져.

  • 토크나이저 학습: 시각 입력을 정렬된 시각 토큰 + 잠재 행동 토큰으로 매핑하는 representation visual-action tokenizer를 먼저 학습해.
  • WAM 사전학습: 언어 명령 아래 미래 시각 상태와 그걸 잇는 잠재 행동을 함께 예측하도록 모델을 사전학습해.
  • 실제 로봇 적응: 마지막으로 실제 로봇 궤적에 맞춰 적응시켜 폐루프 조작으로 연결해.

평가는 실제 로봇 조작 작업과 시뮬레이션 벤치마크 두 곳에서 했고, ablation에서 의미 기반 토큰화가 복원 지향 방식보다 낫다고 저자가 보고했어.

어떤 의미인가

로봇을 직접 안 만져도 가져갈 교훈은 하나야. 토크나이저나 표현을 무슨 목적에 맞춰 학습했느냐가 다운스트림 성능을 가른다는 거. 보기 좋게 복원하도록 맞춘 표현은 막상 행동·제어가 목적일 때 엉뚱한 걸 최적화하고 있을 수 있어. 다만 초록에는 성공률 같은 정량 수치가 없고 ‘strong performance’는 저자 표현이라, 실제 폭은 본문 결과나 후속 재현을 봐야 판단할 수 있어.