이 용어는 어디까지 신뢰할 수 있나요?

여기서 중요한 구분이 있어. OCR은 먼저 “무슨 글자가 어디에 있나”를 뽑는 층이고, 문서 인텔리전스는 그 다음에 표, key-value, 송장 항목, 계약 조항 같은 구조를 해석하는 층에 가까워. 둘을 섞으면 문서 자동화 제품이 실제로 무엇을 해 주는지 금방 흐려져.

어떻게 작동하나

기본 흐름은 단순해. 이미지나 문서 페이지를 넣으면 시스템이 글자 영역을 찾고, 줄과 단어를 나누고, 각 단어의 텍스트와 위치, 때로는 confidence를 돌려줘. Google Cloud Vision 기준으로는 일반 사진의 표지판이나 라벨처럼 넓은 이미지를 처리하는 경로와, 글자가 빽빽한 문서에서 page, block, paragraph, word 정보를 돌려주는 경로가 따로 있어.

Microsoft 쪽도 비슷하게 나눠. 거리 표지판, 포스터, 제품 라벨처럼 일반 이미지에 가까운 입력은 이미지용 OCR 경로가 맞고, 책, 리포트, 송장, 스캔 PDF처럼 문서 자체가 작업 대상이면 Document Intelligence Read OCR 쪽이 맞아. 같은 OCR이라도 실시간 사용자 화면에 넣을지, 2,000페이지짜리 PDF를 비동기로 처리할지에 따라 설계가 달라져.

AI 스택에서는 OCR 결과가 보통 RAG나 검색 인덱스의 원료가 돼. 문서를 글자로 바꾼 뒤 임베딩을 만들고, 질문이 들어오면 관련 문서 조각을 찾아 모델에게 넣는 식이야. 다만 요즘에는 멀티모달 모델과 직접 이미지 임베딩도 같이 봐야 해. Google은 2026년 5월 5일 Gemini API File Search에 멀티모달 지원, custom metadata, page-level citation을 추가했다고 발표했고, DEV 가이드는 gemini-embedding-2를 쓰면 이미지를 OCR에만 기대지 않고 직접 임베딩할 수 있다고 설명해.

왜 중요한가

OCR이 중요한 이유는 문서 자동화의 첫 단추가 여기서 끼워지기 때문이야. 예를 들어 보험 청구 사진에서 손상 설명과 금액을 읽거나, 물류 송장에서 주소와 주문번호를 뽑거나, 오래된 PDF를 검색 가능한 문서로 바꾸려면 먼저 글자가 안정적으로 나와야 해. 글자 추출이 흔들리면 그 뒤의 Vision-Language Model 답변, 표 파싱, RAG 검색도 같이 흔들려.

반대로 OCR이 필요 없는 장면도 생기고 있어. 제품 사진에서 색감이 비슷한 운동화를 찾거나, 차트 이미지의 전반적 모양을 검색하거나, 디자인 시스템에서 버튼 생김새가 비슷한 컴포넌트를 찾는 일은 글자보다 시각 의미가 더 중요해. Gemini Embedding 2 글은 텍스트, 이미지, 영상, 오디오, 문서를 하나의 embedding space에 놓는 모델이라고 설명하고, 한 호출에서 8,192개 text token과 6개 image까지 다룰 수 있다고 적어. 이런 흐름에서는 OCR만으로 이미지를 설명하려고 하면 오히려 중요한 시각 정보를 버릴 수 있어.

그래서 OCR이라는 말이 나오면 먼저 질문을 갈라 보는 게 좋아. 정확한 문자열, 페이지 번호, searchable PDF, 필드 검증이 필요하면 OCR이 중심이야. 이미지의 분위기, 도표 모양, 사진 속 물체, 화면 구성까지 같이 찾고 싶으면 OCR에 멀티모달 검색이나 VLM을 같이 붙이는 쪽이 더 맞아.

주의해서 볼 점

OCR 성능은 입력 품질에 크게 묶여 있어. Microsoft 문서 기준으로 이미지 치수는 50 x 50픽셀부터 10,000 x 10,000픽셀까지이고, 1024 x 768 이미지에서는 추출할 글자 높이가 최소 12픽셀이어야 해. 이 정도 제한만 봐도 작은 캡처, 흔들린 사진, 접힌 영수증, 희미한 도장, 필기체가 왜 자주 실패하는지 감이 와.

또 OCR 결과가 곧 정답은 아니야. 페이지와 단어 위치가 맞아도 표 셀을 잘못 묶거나, “0”과 “O”를 섞거나, 문단 순서를 틀리면 업무 자동화에서는 큰 차이가 나. 그래서 실제 도입 전에는 전체 문서 정확도보다 필드 단위 Eval을 먼저 만들어야 해. 송장 번호, 날짜, 금액, 이름처럼 업무가 깨지는 항목을 따로 재고, 모델 교체나 전처리 변경 뒤 같은 묶음을 다시 돌려야 해.

마지막으로 멀티모달 검색이 OCR을 없애는 건 아니야. 이미지를 직접 임베딩해서 찾는 방식은 시각 검색에 강하지만, 규제 문서나 회계 자료처럼 “원문 어디에 그렇게 쓰여 있나”를 보여줘야 하는 작업에서는 OCR 텍스트와 page citation이 여전히 필요해. OCR은 낡은 우회로라기보다, 문서 기반 AI에서 감사 가능한 텍스트 흔적을 만드는 입력 계층이라고 보는 편이 맞아.

이 항목을 참조하는 위키

📰 관련 기사 (1)

Mistral, OCR 4를 170개 언어·셀프호스팅으로 풀었어2026-06-24🔥86점 · 출처 3

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-07 KST

검증 생성: AI + 편집 검토 · 2026-05-07 상태: 통과

통과 원문 대조

광학 문자 인식의 기본 정의와 문서 자동화 안에서 맡는 역할을 공식 문서 두 곳에 맞춰 봤어.

독자 문제 대조: OCR을 모든 문서 이해 기능으로 읽을지, 먼저 글자를 뽑는 입력 처리 단계로 읽을지 갈라 봐야 해.
Google Cloud Vision 문서는 이 기능을 이미지에서 텍스트를 감지하고 추출하는 작업으로 설명하고, 일반 사진과 빽빽한 문서를 별도 annotation feature로 나눠.
Microsoft OCR 개요는 OCR을 text recognition 또는 text extraction이라고도 부르고, 인쇄체와 필기체를 이미지와 문서에서 뽑는 기술로 설명해.
Document Intelligence Read 문서는 출력이 단순 문자열을 넘어 문단, 줄, 단어, 위치, 언어 정보를 포함할 수 있다고 적어.

통과 교차 검증 검증 출처 4

글자 추출, 문서 인텔리전스, 멀티모달 검색을 한 기능으로 섞지 않았는지 서로 다른 출처를 대조했어.

비교 기준: 일반 이미지의 글자 추출, 문서 페이지 처리, 구조 추출, 직접 이미지 임베딩이 서로 같은 층인지 다른 층인지 나눠 봤어.
Google Cloud와 Microsoft 문서는 모두 가벼운 사진 입력과 텍스트가 많은 문서 입력을 별도 경로로 다뤄.
Microsoft 문서는 지능형 문서 처리가 OCR을 바탕으로 구조, 관계, key-value, entity를 더 뽑는다고 설명해서 글자 추출과 문서 이해의 경계를 확인시켜 줘.
Google의 2026년 5월 5일 File Search 글과 DEV 가이드는 Gemini Embedding 2 기반 이미지 검색이 OCR에만 기대지 않고 이미지를 직접 임베딩할 수 있다고 설명해.

통과 수치 검증

본문 판단에 쓰인 날짜, 입력 한도, 기능 구분 숫자를 출처별로 다시 확인했어.

Google Cloud Vision 문서 기준 OCR annotation feature는 일반 이미지용과 밀도 높은 문서용 두 가지로 나뉘고, offline asynchronous batch image annotation은 최대 2,000개 이미지 파일을 처리할 수 있어.
Microsoft OCR 개요 기준 PDF와 TIFF는 최대 2,000페이지까지 처리되고, 이미지 크기는 paid tier 500MB, free tier 4MB 제한을 둬.
Microsoft Document Intelligence Read 문서 기준 이미지 치수는 50 x 50픽셀부터 10,000 x 10,000픽셀까지고, 1024 x 768 이미지에서 추출할 글자 높이는 최소 12픽셀이라고 적어.
Gemini Embedding 2 글은 2026년 4월 30일 게시됐고, 한 번의 호출에서 8,192 text token, 6 images, 120 seconds video, 180 seconds audio, 6 PDF pages를 다룬다고 적어.

통과 비판 검토

이 기술을 만능 문서 이해나 오래된 우회로로 과장 없이 밀어 넣었는지 반대로 걸러 봤어.

광학 문자 인식은 글자를 뽑는 기술이지, 송장 총액이나 계약 조항 의미를 자동으로 이해하는 전체 문서 추론 시스템은 아니야.
멀티모달 임베딩이 이미지를 직접 검색할 수 있어도, 감사 가능한 원문 텍스트, searchable PDF, 필드 단위 검증이 필요한 곳에서는 OCR이 계속 필요해.
OCR confidence와 page citation이 있어도 답변의 사실성은 별도 문제야. [RAG](/ko/wiki/rag/)에서는 문서 분할, 검색, 인용, [Eval](/ko/wiki/eval/)을 따로 봐야 해.
작은 글씨, 낮은 해상도, 기울어진 촬영, 필기체, 혼합 언어, 표 구조는 OCR 품질을 흔들 수 있어서 [벤치마크](/ko/wiki/benchmark/) 숫자만으로 운영 품질을 단정하면 위험해.

문서를 AI가 읽기 전에 글자와 위치를 정리해 주는 입력 계층으로 보는 편이 정확해.
멀티모달 검색은 OCR의 대체재라기보다, 글자보다 이미지 의미와 시각 유사도가 중요한 검색에서 다른 경로를 열어 줘.

출처: Google Cloud Vision API - Detect and extract text from images , Microsoft Learn - OCR, Optical Character Recognition , Microsoft Learn - Document Intelligence Read OCR model , Google Blog - Gemini API File Search is now multimodal , Google Developers Blog - Building with Gemini Embedding 2 , DEV Community - Multimodal RAG with the Gemini API File Search Tool

OCR (광학 문자 인식)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

관련 용어

이 항목을 참조하는 위키

📰 관련 기사 (1)