LLM에 문서를 넣을 때 가장 번거로운 작업이 전처리야. PDF를 텍스트로 추출하면 레이아웃이 깨지고, HTML에서 본문만 뽑으면 메뉴·광고가 섞이고. 이걸 매번 파이프라인에서 직접 처리해야 했는데 — Firecrawl이 /parse 엔드포인트를 출시하면서 이 작업을 단순화했어.

/parse는 URL이나 파일을 받아서 LLM이 읽기 좋은 깔끔한 Markdown으로 반환하는 전용 엔드포인트야. PDF, HTML, DOCX, 웹페이지 등 포맷에 관계없이 처리하거든. 결과물이 Markdown이라 그대로 LLM 컨텍스트에 주입하거나 벡터 DB에 임베딩하기 편해.

RAG(검색 증강 생성) 파이프라인에서 기존에는 URL 수집 → 파싱 → 정제 → 임베딩 4단계가 필요했는데, /parse를 쓰면 호출 1번으로 Markdown이 나와. 기존 Firecrawl의 웹 크롤링과 함께 쓰면, 웹 데이터 수집 → 문서 파싱 → LLM 주입까지 한 흐름으로 처리할 수 있거든.

무료 티어에서도 월 기본 파싱 건수를 제공해서 소규모 프로젝트에서 바로 실험해볼 수 있어. 복잡한 수식이나 표가 많은 PDF는 변환 품질 차이가 있을 수 있으니 실제 작업물로 먼저 테스트해보는 게 좋아. API 문서는 docs.firecrawl.dev에서 확인할 수 있어.