무슨 일이 일어났나

OpenAIPrivacy Filter라는 이름으로 PII(개인 식별 정보) 마스킹 모델Hugging Face에 풀었어. 라이선스Apache 2.0이고, 총 1.5B 파라미터에 활성 50M짜리 양방향 토큰 분류 모델이야.

처리 카테고리는 8개야. 이름, 주소, 이메일, 전화번호, URL, 날짜, 계좌번호, 그리고 secrets(API 키 같은 것). 컨텍스트는 128k 토큰까지 받아.

어디서 돌아가는가

GPU에서는 FP16 기준 약 3GB VRAM, CPU에서는 4-8GB RAM이면 중간 길이 텍스트가 처리돼. 사내 노트북이나 단일 GPU 서버에서 데이터를 외부로 빼지 않고 마스킹할 수 있다는 게 이번 발표의 무게중심이야.

벤치마크 수치는 OpenAI 발표 기준이야:

수정판은 OpenAI가 검토 중에 발견한 어노테이션 오류를 고친 버전이라고 명시돼 있어.

어떤 의미인가

지금까지 엔터프라이즈 영역에서 PII 마스킹은 외부 SaaS에 데이터를 보내거나 정규식 기반 도구를 쓰는 두 갈래였어. Apache 2.0으로 풀린 1.5B 모델은 그 가운데를 메워. 데이터를 노트북 밖으로 안 보내면서 ML 기반 정확도를 쓸 수 있어.

다만 평가 수치 자체가 OpenAI 자체 데이터셋 기준이고, 한국어 주민번호·전화번호 같은 로컬 패턴 성능은 별도 테스트가 필요해. 사내에 적용한다면 실제 자사 데이터 1000건 정도로 precision/recall을 다시 재보는 게 안전해.

다음 수순

VentureBeat 보도에 따르면 첫 타깃은 학습 데이터 정제와 RAG 파이프라인 입력 단계야. RAG 인덱스를 만들기 전에 한 번 흘려서 PII를 비워두면 추후 응답에서 새는 위험이 줄어들어. 한 번 깔아두면 워크플로 어느 단계에서든 호출할 수 있는 구조야.