한 줄 정의

Gemini Embedding 2는 텍스트, 이미지, 비디오, 오디오, PDF를 같은 벡터 공간에 놓는 Google의 멀티모달 임베딩 모델이야. Gemini 계열의 생성 모델처럼 답을 써 주는 모델이 아니라, 서로 다른 형식의 자료가 의미상 얼마나 가까운지 비교할 수 있게 숫자 벡터를 만들어 줘.

이름에서 봐야 할 차이는 “2”보다 “multimodal embedding” 쪽이야. 기존 텍스트 전용 임베딩은 질문과 문서 텍스트를 비교하는 데 강했지만, 이 모델은 이미지나 짧은 영상, 오디오, PDF까지 같은 검색 후보군에 올릴 수 있게 해. 그래서 문서 RAG, 미디어 검색, 상품 이미지 검색처럼 입력 형식이 섞인 곳에서 먼저 검토할 만해.

이 모델로 무엇을 할 수 있나

Gemini API에서는 gemini-embedding-2라는 모델 코드로 호출해. 텍스트는 8,192토큰까지 받고, 이미지는 요청당 6장, 비디오는 120초, 오디오는 180초, PDF는 6페이지까지 다룬다고 문서가 적어. 결과는 기본 3,072차원 벡터고, 저장공간과 검색 비용을 줄여야 하면 1,536이나 768차원으로 낮춰 쓸 수 있어.

예를 들어 디자인 팀이 “검은 배경에 얇은 흰색 선이 있는 차트” 같은 자연어 설명으로 과거 슬라이드를 찾고 싶다고 해보자. 예전에는 이미지에서 글자를 뽑는 OCR, 이미지 캡션 생성, 텍스트 임베딩을 따로 이어야 했어. 이 모델을 쓰면 텍스트 설명과 이미지 자료를 같은 벡터 검색 흐름에 올려서 후보를 뽑을 수 있어. 다만 이건 후보 검색이지, 표 셀의 숫자를 검증하거나 원문 위치를 보장하는 작업과는 달라.

구현할 때는 task prefix도 신경 써야 해. Google 문서는 task: search result, task: question answering, task: fact checking, task: code retrieval 같은 접두어를 쿼리 쪽에 붙이고, 문서 쪽에는 title: ... | text: ... 형식을 쓰는 예를 보여 줘. 같은 벡터라도 검색, 분류, 클러스터링 중 무엇을 할지에 따라 입력 문장을 다르게 꾸미라는 뜻이야.

왜 중요한가

이 모델이 중요한 이유는 RAG의 앞단을 다시 보게 만들기 때문이야. 텍스트 PDF만 다룰 때는 문서를 쪼개고 임베딩하고 Vector Database에 넣는 흐름이면 충분한 경우가 많았어. 그런데 슬라이드 이미지, 스캔 문서, 제품 사진, 짧은 영상 클립이 섞이면 텍스트만 임베딩해서는 검색 후보가 쉽게 빠져.

이 임베딩 모델은 그 빈칸을 줄여. Google의 2026년 5월 5일 File Search 업데이트도 이 모델을 바탕으로 이미지와 텍스트를 같은 인덱스에서 처리하고, metadata filter와 page citation을 같이 내세웠어. 실무에서는 “이미지 처리를 별도 파이프라인으로 둘까, 관리형 File Search로 넘길까, 직접 벡터 DB를 구축할까”를 비교하게 되는 거야.

또 하나 봐야 할 건 가격과 저장 비용이야. Gemini Developer API 가격표 기준 paid tier에서 텍스트 입력은 1M 토큰당 $0.20이고, 이미지·오디오·비디오는 별도 단가가 있어. 벡터 차원을 3,072에서 768로 줄이면 저장공간과 유사도 계산 비용은 줄지만, 검색 품질은 업무 데이터로 다시 봐야 해. 숫자는 숫자고, 내 문서에서 어떤지가 진짜야.

같이 보면 좋은 모델

  • Gemini는 이 모델이 속한 Google 모델 브랜드야. 생성형 답변 모델이 아니라 임베딩 전용 모델이라는 점을 분리해서 봐야 해.
  • Gemini API는 실제 사용 경로야. 모델 코드, 가격표, Files API, Batch API, File Search 같은 운영 조건은 여기서 갈려.
  • Embedding은 이 모델의 출력 형식을 이해하게 해 줘. 벡터가 바뀌면 기존 인덱스와 검색 점수도 같이 바뀔 수 있어.
  • Multimodal은 입력 형식이 섞일 때 왜 이 모델이 필요한지 잡아 줘. 텍스트, 이미지, 오디오, 비디오를 같은 작업 안에서 비교할 때 바로 작동해.
  • OCR은 문서 자동화에서 여전히 필요한 입력 처리 기술이야. 이미지를 직접 임베딩해도, 원문 텍스트와 위치가 필요한 업무에서는 OCR을 같이 봐야 해.