이 용어는 어디까지 신뢰할 수 있나요?

Gemini Embedding 2는 텍스트, 이미지, 비디오, 오디오, PDF를 같은 벡터 공간에 놓는 Google의 멀티모달 임베딩 모델이야. Gemini 계열의 생성 모델처럼 답을 써 주는 모델이 아니라, 서로 다른 형식의 자료가 의미상 얼마나 가까운지 비교할 수 있게 숫자 벡터를 만들어 줘.

이름에서 봐야 할 차이는 “2”보다 “multimodal embedding” 쪽이야. 기존 텍스트 전용 임베딩은 질문과 문서 텍스트를 비교하는 데 강했지만, 이 모델은 이미지나 짧은 영상, 오디오, PDF까지 같은 검색 후보군에 올릴 수 있게 해. 그래서 문서 RAG, 미디어 검색, 상품 이미지 검색처럼 입력 형식이 섞인 곳에서 먼저 검토할 만해.

이 모델로 무엇을 할 수 있나

Gemini API에서는 gemini-embedding-2라는 모델 코드로 호출해. 텍스트는 8,192토큰까지 받고, 이미지는 요청당 6장, 비디오는 120초, 오디오는 180초, PDF는 6페이지까지 다룬다고 문서가 적어. 결과는 기본 3,072차원 벡터고, 저장공간과 검색 비용을 줄여야 하면 1,536이나 768차원으로 낮춰 쓸 수 있어.

예를 들어 디자인 팀이 “검은 배경에 얇은 흰색 선이 있는 차트” 같은 자연어 설명으로 과거 슬라이드를 찾고 싶다고 해보자. 예전에는 이미지에서 글자를 뽑는 OCR, 이미지 캡션 생성, 텍스트 임베딩을 따로 이어야 했어. 이 모델을 쓰면 텍스트 설명과 이미지 자료를 같은 벡터 검색 흐름에 올려서 후보를 뽑을 수 있어. 다만 이건 후보 검색이지, 표 셀의 숫자를 검증하거나 원문 위치를 보장하는 작업과는 달라.

구현할 때는 task prefix도 신경 써야 해. Google 문서는 task: search result, task: question answering, task: fact checking, task: code retrieval 같은 접두어를 쿼리 쪽에 붙이고, 문서 쪽에는 title: ... | text: ... 형식을 쓰는 예를 보여 줘. 같은 벡터라도 검색, 분류, 클러스터링 중 무엇을 할지에 따라 입력 문장을 다르게 꾸미라는 뜻이야.

왜 중요한가

이 모델이 중요한 이유는 RAG의 앞단을 다시 보게 만들기 때문이야. 텍스트 PDF만 다룰 때는 문서를 쪼개고 임베딩하고 Vector Database에 넣는 흐름이면 충분한 경우가 많았어. 그런데 슬라이드 이미지, 스캔 문서, 제품 사진, 짧은 영상 클립이 섞이면 텍스트만 임베딩해서는 검색 후보가 쉽게 빠져.

이 임베딩 모델은 그 빈칸을 줄여. Google의 2026년 5월 5일 File Search 업데이트도 이 모델을 바탕으로 이미지와 텍스트를 같은 인덱스에서 처리하고, metadata filter와 page citation을 같이 내세웠어. 실무에서는 “이미지 처리를 별도 파이프라인으로 둘까, 관리형 File Search로 넘길까, 직접 벡터 DB를 구축할까”를 비교하게 되는 거야.

또 하나 봐야 할 건 가격과 저장 비용이야. Gemini Developer API 가격표 기준 paid tier에서 텍스트 입력은 1M 토큰당 $0.20이고, 이미지·오디오·비디오는 별도 단가가 있어. 벡터 차원을 3,072에서 768로 줄이면 저장공간과 유사도 계산 비용은 줄지만, 검색 품질은 업무 데이터로 다시 봐야 해. 숫자는 숫자고, 내 문서에서 어떤지가 진짜야.

같이 보면 좋은 모델

Gemini는 이 모델이 속한 Google 모델 브랜드야. 생성형 답변 모델이 아니라 임베딩 전용 모델이라는 점을 분리해서 봐야 해.
Gemini API는 실제 사용 경로야. 모델 코드, 가격표, Files API, Batch API, File Search 같은 운영 조건은 여기서 갈려.
Embedding은 이 모델의 출력 형식을 이해하게 해 줘. 벡터가 바뀌면 기존 인덱스와 검색 점수도 같이 바뀔 수 있어.
Multimodal은 입력 형식이 섞일 때 왜 이 모델이 필요한지 잡아 줘. 텍스트, 이미지, 오디오, 비디오를 같은 작업 안에서 비교할 때 바로 작동해.
OCR은 문서 자동화에서 여전히 필요한 입력 처리 기술이야. 이미지를 직접 임베딩해도, 원문 텍스트와 위치가 필요한 업무에서는 OCR을 같이 봐야 해.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-07 KST

검증 생성: AI + 편집 검토 · 2026-05-07 상태: 통과

통과 원문 대조

Google의 출시 글과 현재 API 문서를 나눠 보고, preview 발표와 stable 제공 상태가 어떻게 이어졌는지 맞춰 봤어.

독자 문제 대조: 이 모델을 텍스트 임베딩 업그레이드로만 볼지, 이미지·오디오·PDF까지 같은 검색 공간에 넣는 변화로 볼지 먼저 갈라야 해.
2026년 3월 10일 Google 출시 글은 이 모델을 공개 preview로 소개했고, 텍스트·이미지·비디오·오디오·문서를 하나의 embedding space에 놓는다고 적어.
현재 Gemini API 문서는 이 모델을 최신 멀티모달 임베딩 모델로 두고, text-only 용도에는 이전 모델도 남겨 둬.
본문에는 Google의 자체 최고 성능 표현을 그대로 옮기지 않고, 입력 범위와 운영 한도처럼 검증 가능한 항목만 남겼어.

통과 교차 검증 검증 출처 5

공식 블로그, API 문서, 가격표, File Search 발표를 서로 맞춰서 모델 범위를 좁혔어.

비교 기준: 모델 자체의 정체성, API에서 실제로 받는 입력, RAG 제품에서 쓰이는 위치, OCR과의 경계를 따로 봤어.
Embeddings 문서는 이 항목이 Gemini API의 첫 멀티모달 임베딩 모델이고, text-only 용도에는 이전 세대도 남아 있다고 설명해.
같은 문서는 task prefix, reranking, clustering, vector database 저장, Batch API 같은 구현 흐름을 설명해서 단순 발표문보다 실사용 범위를 보강해.
File Search 발표는 2026년 5월 5일 업데이트에서 멀티모달 지원, custom metadata, page-level citation을 더했고, 멀티모달 처리를 이 임베딩 모델이 맡는다고 적어.
Cloud Vision OCR 문서는 텍스트 검출이 bounding box와 단어 정보를 돌려주는 별도 기술임을 보여 줘서, 이 모델을 OCR 자체로 부르지 않게 해.

통과 수치 검증

본문과 모델 카드에 넣은 숫자는 현재 Gemini API 문서와 가격표에서 다시 골랐어.

모델 문서 기준 지원 입력은 text, image, video, audio, PDF이고, 입력 토큰 한도는 8,192야.
Embeddings 문서 기준 출력 차원은 128~3,072 범위에서 고를 수 있고, 권장 차원은 768, 1,536, 3,072야.
멀티모달 입력 한도는 이미지 6장, 오디오 180초, 비디오 120초, PDF 6페이지로 적혀 있어.
가격표 기준 이 모델의 paid tier는 1M 단위로 텍스트 $0.20, 이미지 $0.45, 오디오 $6.50, 비디오 $12.00 입력 가격을 둬.
Google Sheets의 70.48% SpreadsheetBench 수치는 별도 Workspace 기능의 수치라서 이 임베딩 모델의 성능 근거로 쓰지 않았어.

통과 비판 검토

멀티모달 임베딩을 만능 문서 이해나 OCR 대체재로 과장하지 않도록 반대로 걸러 봤어.

Embedding 2는 답변을 생성하는 모델이 아니라 입력을 숫자 벡터로 바꾸는 모델이야. 최종 답변 품질은 검색, 재정렬, 생성 모델, 인용 처리까지 같이 봐야 해.
여러 입력을 한 요청에 직접 넣으면 하나의 aggregated embedding이 나올 수 있어. 항목별 벡터가 필요하면 Content 객체 분리나 Batch API 같은 흐름을 따로 써야 해.
OCR이 필요한 회계 자료, 규제 문서, searchable PDF 작업에서는 원문 텍스트와 위치 정보가 여전히 중요해. 이미지 임베딩만으로 감사 가능한 인용이 자동으로 생기진 않아.
Google 자체 블로그의 파트너 성과 수치는 내부 데이터와 구현 조건에 묶여 있어. 도입 전에는 팀 문서로 Recall@k, citation 정확도, 지연 시간을 따로 재야 해.

이 모델은 텍스트·이미지·오디오·비디오·PDF를 같은 검색 후보 공간에 놓는 모델이지, 모든 문서 처리 단계를 없애는 제품은 아니야.
기존 텍스트 임베딩 인덱스를 그대로 재사용하기보다, 새 벡터 차원과 모달리티 기준으로 다시 인덱싱하는 비용을 같이 봐야 해.

출처: Google Blog - multimodal embedding launch , Google AI for Developers - Embeddings , Google AI for Developers - Gemini Developer API pricing , Google Blog - Gemini API File Search is now multimodal , Google Blog - Gemini in Google Sheets benchmark , Google Cloud Vision API - Detect and extract text from images

Gemini Embedding 2(제미니 임베딩 2)

모델 프로필

상위 모델

전체 AI 기술 맵에서의 위치

한 줄 정의

이 모델로 무엇을 할 수 있나

왜 중요한가

같이 보면 좋은 모델

관련 용어

이 항목을 참조하는 위키