무슨 일이 일어났나
OpenAI가 Privacy Filter라는 이름으로 PII(개인 식별 정보) 마스킹 모델을 Hugging Face에 풀었어. 라이선스는 Apache 2.0이고, 총 1.5B 파라미터에 활성 50M짜리 양방향 토큰 분류 모델이야.
처리 카테고리는 8개야. 이름, 주소, 이메일, 전화번호, URL, 날짜, 계좌번호, 그리고 secrets(API 키 같은 것). 컨텍스트는 128k 토큰까지 받아.
어디서 돌아가는가
GPU에서는 FP16 기준 약 3GB VRAM, CPU에서는 4-8GB RAM이면 중간 길이 텍스트가 처리돼. 사내 노트북이나 단일 GPU 서버에서 데이터를 외부로 빼지 않고 마스킹할 수 있다는 게 이번 발표의 무게중심이야.
- PII-Masking-300k 원본: F1 96% (precision 94.04%, recall 98.04%)
- 수정판: F1 97.43% (precision 96.79%, recall 98.08%)
수정판은 OpenAI가 검토 중에 발견한 어노테이션 오류를 고친 버전이라고 명시돼 있어.
어떤 의미인가
지금까지 엔터프라이즈 영역에서 PII 마스킹은 외부 SaaS에 데이터를 보내거나 정규식 기반 도구를 쓰는 두 갈래였어. Apache 2.0으로 풀린 1.5B 모델은 그 가운데를 메워. 데이터를 노트북 밖으로 안 보내면서 ML 기반 정확도를 쓸 수 있어.
다만 평가 수치 자체가 OpenAI 자체 데이터셋 기준이고, 한국어 주민번호·전화번호 같은 로컬 패턴 성능은 별도 테스트가 필요해. 사내에 적용한다면 실제 자사 데이터 1000건 정도로 precision/recall을 다시 재보는 게 안전해.
다음 수순
VentureBeat 보도에 따르면 첫 타깃은 학습 데이터 정제와 RAG 파이프라인 입력 단계야. RAG 인덱스를 만들기 전에 한 번 흘려서 PII를 비워두면 추후 응답에서 새는 위험이 줄어들어. 한 번 깔아두면 워크플로 어느 단계에서든 호출할 수 있는 구조야.