한 줄 정의
File Search는 AI 앱이 업로드된 문서나 이미지를 먼저 검색하고, 그 결과를 모델 답변의 근거로 쓰게 만드는 검색 계층이야. 그냥 노트북 안에서 파일명을 찾는 기능이 아니라, RAG에서 “어떤 자료를 읽고 답했는지”를 정하는 앞단이라고 보면 돼.
그래서 같은 이름이라도 맥락을 나눠 봐야 해. 일반 개념으로는 파일 기반 검색 흐름이고, Gemini API File Search는 그 흐름을 Gemini API 안에서 store, 업로드, 인덱싱, 검색, 인용 반환까지 묶어 제공하는 도구야. 이름이 비슷하다고 전부 같은 층위는 아니야.
어떻게 작동하나
흐름은 보통 4단계로 나뉘어. 먼저 파일을 store나 인덱스에 올리고, 시스템이 문서를 쪼갠 뒤 임베딩을 만들어 검색 가능한 형태로 저장해. 사용자가 질문하면 검색 계층이 관련 조각을 찾고, 생성 모델은 그 조각을 읽은 뒤 답변을 써. 마지막으로 citations나 page number 같은 근거 메타데이터를 사용자 화면에 돌려줄 수 있어.
Gemini API 쪽 구현은 이 구조를 관리형으로 묶은 사례야. DEV 가이드는 File Search를 built-in RAG tool로 설명하고, 업로드한 문서에 대해 chunking, embedding, indexing, retrieval을 API가 처리한다고 적어. 2026년 5월 5일 Google 발표에서는 여기에 멀티모달 검색, 커스텀 메타데이터, 페이지 단위 인용이 추가됐다고 설명했어.
멀티모달 검색도 범위를 정확히 봐야 해. 발표 글은 Gemini Embedding 2가 이미지와 텍스트를 함께 처리한다고 설명하지만, 개발자 가이드는 이 도구에서 audio와 video 형식은 현재 지원하지 않는다고 제한해. 그래서 실무 예시는 제품 사진과 설명서, PDF 안의 도표, 연구 보고서의 이미지처럼 텍스트와 이미지가 섞인 자료부터 잡는 게 맞아.
왜 중요한가
File Search가 중요한 이유는 “모델이 똑똑해졌다”는 말과 “모델이 읽을 자료를 더 잘 찾게 됐다”는 말을 갈라 주기 때문이야. 답변 품질이 좋아져도 원인은 생성 모델, 임베딩 모델, 문서 분할, 메타데이터 필터, 인용 표시 중 어디에나 있을 수 있어. 이걸 한 덩어리로 보면 도입 판단이 흐려져.
실무에서는 두 장면에서 차이가 커. 첫째, 사내 규정이나 제품 매뉴얼을 챗봇에 연결할 때 파일 업로드와 검색 인프라를 직접 운영할지, 관리형 File Search로 넘길지 정해야 해. 둘째, 디자인 시안, 제품 사진, 차트가 섞인 자료실에서 텍스트 검색만으로 못 찾던 파일을 자연어 설명으로 찾고 싶을 때 멀티모달 임베딩이 의미가 있어.
숫자도 너무 멀리 가지 않고 확인해야 해. Google의 임베딩 소개 글은 Harvey가 legal benchmark에서 Recall@20 precision 3% 상승, Supermemory가 Recall@1 40% 상승, Nuuly가 Match@20을 60%에서 거의 87%로 높인 사례를 제시해. 좋은 신호지만, 전부 각 회사 데이터와 구현 조건 안의 결과야. 내 자료에서는 검색 후보가 맞는지, 인용이 정확한지, 응답 시간이 견딜 만한지 따로 봐야 해.
주의해서 볼 점
File Search는 Grounding을 돕지만 진실을 보증하지는 않아. 잘못된 PDF를 올리면 그 PDF를 근거로 틀린 답을 만들 수 있고, 문서를 너무 크게 쪼개거나 메타데이터를 대충 붙이면 검색 후보도 흔들려. page citation은 검증을 쉽게 해 주는 장치지, 자료 자체의 품질을 대신 확인해 주는 장치는 아니야.
직접 벡터 DB를 운영하는 방식과도 다르게 봐야 해. 관리형 File Search는 업로드, 인덱싱, 검색, citation 처리를 줄여 주는 대신, 청킹 전략과 저장소 구조를 세밀하게 제어하는 폭은 줄어들 수 있어. 반대로 벡터 데이터베이스를 직접 운영하면 제어권은 커지지만, 인덱싱 파이프라인, 권한, 비용, 장애 대응까지 팀이 맡아야 해.
도입 전에는 이 4가지만 먼저 확인하면 좋아.
- 검색 대상: 텍스트 문서만인지, 이미지가 섞인 PDF나 개별 이미지까지 필요한지 확인해.
- 근거 표시: 파일명만 있으면 되는지, 페이지 번호나 이미지 citation까지 보여줘야 하는지 확인해.
- 필터 설계:
department,season,status같은 메타데이터로 검색 범위를 좁힐 수 있어야 하는지 확인해. - 평가 기준: Recall@k, citation 정확도, 응답 지연, 인덱싱 비용을 샘플 문서로 재야 해.