무슨 일이 있었나

HuggingFace가 Sentence Transformers v5.4를 공개하면서 이 라이브러리가 처음으로 정식 멀티모달 지원에 들어갔어. 텍스트, 이미지, 오디오, 영상 네 가지 모달리티를 같은 API로 인코딩하고 비교할 수 있게 된 거거든.

핵심은 두 가지야. 첫째, 멀티모달 임베딩 모델이 서로 다른 모달리티를 공통 임베딩 공간에 매핑해준다. 둘째, 리랭커 역할을 하는 CrossEncoder도 멀티모달 쌍을 받을 수 있게 됐어. 즉 “이 질문 텍스트에 가장 잘 맞는 이미지 상위 5개 골라 줘” 같은 요청을 별도 모델 파이프라인 없이 한 라이브러리로 짤 수 있다는 뜻이야.

왜 중요할까

실무 관점에서 제일 직접 영향이 큰 분야는 RAG 파이프라인이다. 지금까지 멀티모달 RAG를 짜려면 CLIP, ImageBind, 텍스트 인코더 같은 걸 3개 이상 별도 조합해야 했는데, 이번 업데이트부터는 Sentence Transformers 하나로 visual document retrieval, cross-modal search, 멀티모달 RAG를 다 덮을 수 있거든. PDF 매뉴얼에 이미지·도표·텍스트가 섞여 있는 경우 특히 작업량이 크게 줄어.

앞으로 볼 점

한 가지 조심할 건 공식 블로그에 벤치마크 수치가 거의 없다는 점이야. CLIP이나 Cohere Embed v4 같은 기존 대안 대비 정확도·속도 비교표가 없어서, 실무 도입 전에 본인 데이터로 A/B 평가하는 단계는 건너뛰면 안 돼. 오디오·영상 임베딩 품질이 Whisper 임베딩 같은 전용 모델 대비 어느 수준인지도 아직 커뮤니티 리포트가 부족하고.