이 용어는 어디까지 신뢰할 수 있나요?

각 용어는 최신 공개 자료 기반으로 정리되며, 출처와 검증 기록을 바탕으로 점진적으로 업데이트됩니다.

Privacy Filter(프라이버시 필터)

다른 이름: privacy filterPrivacy FilterOpenAI Privacy Filteropenai/privacy-filter

OpenAI Privacy Filter는 긴 텍스트에서 이름, 이메일, 전화번호, 계정번호, 비밀키 같은 개인정보 범위를 찾아 라벨로 바꾸는 오픈 웨이트 모델이야.

Hugging Face model card

openai/privacy-filter

모델 카드

Task token-classification

Library transformers

Likes 1.2k

Downloads 104.7k

License apache-2.0

Parameters 1.5B total, 50M active

Precision F32 and BF16 safetensors; q4 example for Transformers.js

Updated 2026-04-29

Access Hugging Face model repository, Transformers, Transformers.js, ONNX, GitHub

전체 AI 기술 맵에서의 위치

응용 (Application)

프로젝트 (Project)

데이터셋 (Dataset)

기법 (Technique)

프레임워크 (Framework)

모델 (Model)

개념 (Concept)

Agents SDK(에이전트 SDK)AI Studio (AI 스튜디오)Aider(에이더)Alibaba Cloud API(알리바바 클라우드 API)Alibaba Cloud Model Studio(알리바바 클라우드 모델 스튜디오)Amazon Bedrock(아마존 베드록)Anthropic API(앤트로픽 API)App Store(앱 스토어)Batch API(배치 API)BentoML(벤토엠엘)Chat (대화형 AI 인터페이스)Chat Completions(챗 컴플리션스)ChatGPT(챗지피티)Chroma(크로마)Claude Code(클로드 코드)Claude Code Remote Control(클로드 코드 리모트 컨트롤)Claude Cowork(클로드 코워크)Claude Desktop(클로드 데스크톱)claude remote-control(클로드 리모트 컨트롤 명령)claude --version (버전 조회)claude.ai(클로드 웹 앱)Cline(클라인)CloudTrail(클라우드트레일)Codex(코덱스)Codex CLI(코덱스 CLI)ComfyUI(컴피유아이)Continue(컨티뉴)GitHub Copilot (깃허브 코파일럿)Cursor(커서)DeepSeek API(딥시크 API)DGX B200(디지엑스 B200)DGX Spark(디지엑스 스파크)Docker(도커)Excel(엑셀)FAISS (페이스)Gemini API(제미니 API)Gemini API File Search(제미니 API 파일 검색)Gemini Developer API(제미니 디벨로퍼 API)Gemini Enterprise Agent Platform(제미니 엔터프라이즈 에이전트 플랫폼)GitHub (깃허브)Gmail(지메일)Google AI Studio(구글 AI 스튜디오)Google Calendar(구글 캘린더)Google Docs(구글 문서)Google Drive(구글 드라이브)Google Search(구글 검색)Google Sheets(구글 시트)H100 (엔비디아 호퍼 GPU)Hugging Face(허깅 페이스)Jetson Thor(젯슨 토르)Kimi API(키미 API)Kimi Code(키미 코드)Kimi.com(키미닷컴)KTransformers (케이트랜스포머스)Live API(라이브 API)llama-cli (로컬 LLM CLI)llama.cpp(로컬 LLM 런타임)llama-server(로컬 LLM 서빙 서버)llama.cpp (로컬 LLM 추론 엔진)LM Studio(엘엠 스튜디오)LocalLLaMA (로컬라마)Microsoft Foundry(마이크로소프트 파운드리)MiMo Code (미모 코드)MLflow(엠엘플로우)Modal(모달)Model Garden(모델 가든)Model Studio(모델 스튜디오)Model Studio API(모델 스튜디오 API)ModelScope(모델스코프)n8n(엔에잇엔)Ollama(올라마)OpenAI API(오픈에이아이 API)OpenAI Chat Completion(오픈AI 챗 컴플리션)OpenAI SDK(오픈에이아이 SDK)OpenClaw(오픈클로)OpenRouter(오픈라우터)Perplexity (퍼플렉시티)Pinecone (파인콘)Qdrant (큐드런트)Qwen API(큐원 API)Qwen Code(큐원 코드)Qwen Studio(큐원 스튜디오)Raspberry Pi (라즈베리 파이)Replicate(레플리케이트)Responses API(리스폰스 API)SGLang(에스지랭)Studio(스튜디오)Supabase(수파베이스)Tokenizer(토크나이저)Triton Inference Server(트리톤 추론 서버)Vector Database (벡터 데이터베이스)vLLM(브이엘엘엠)VS Code(비주얼 스튜디오 코드)Weaviate(위비에이트)Weights & Biases(웨이츠 앤 바이어시스)Windsurf(윈드서프)

Activepieces (액티브피시스)agent-skills Agentic AQUA (에이전틱 아쿠아)AgentTrust Apache Airflow (아파치 에어플로)Cairn (케언)DeepGEMM(딥시크 CUDA 커널 라이브러리)Engram(엔그램)HyperFrames (하이퍼프레임스)LightRAG (라이트RAG)Manifest (매니페스트)mcp-mydisease (MyDisease.info MCP 서버)mcp-xray (Jira Xray MCP 서버)NautilusTrader (노틸러스 트레이더)NostalgiaForInfinity (노스탤지아 포 인피니티)opencodex(오픈코덱스)OpenMemory (오픈메모리)PocketBase (포켓베이스)Microsoft Qlib (마이크로소프트 Qlib)Savvly MCP (세이블리 MCP 서버)Tmax(티맥스)whisper.cpp (위스퍼.cpp)yfinance (와이파이낸스)

Nemotron-Personas-Korea (네모트론 페르소나스 코리아)PII-Masking-300k(피아이아이 마스킹 300K)

Agentic AI (에이전틱 AI)Agentic Coding(에이전틱 코딩)benchmark (벤치마크)Chain-of-Thought(연쇄 추론 유도)DeepSeek Sparse Attention (딥시크 스파스 어텐션)Distillation (지식 증류)Eval(평가)Fine-tuning (파인튜닝)Function Calling(함수 호출)Grounding (그라운딩)Guardrail(가드레일)--kv-cache-dtype bfloat16 (BF16 KV 캐시 저장 형식 플래그)Prompt Caching(프롬프트 캐싱)Prompt Engineering(프롬프트 엔지니어링)Quantization (양자화)RAG (검색 증강 생성)reasoning.effort (리즈닝 이포트)Red Teaming (레드 팀잉)RLHF(인간 피드백 기반 강화학습)Speech to Text(음성 인식)Synthetic Data(합성 데이터)Text to Speech(음성 합성)Tool Use(도구 사용)Training(학습)Vibe Coding(바이브 코딩)

Agent Platform(에이전트 플랫폼)Agent Runtime(에이전트 런타임)AutoGen(오토젠)Claude Managed Agents(클로드 매니지드 에이전트)CrewAI (크루에이아이)DeepSpeed(딥스피드)GGUF(GGUF 모델 파일 형식)Gradio (그라디오)JAX (잭스)Kubeflow(쿠브플로우)LangChain (랭체인)LangGraph(랭그래프)LlamaIndex (라마인덱스)llm-server(로컬 llama.cpp 서빙 자동화 프레임워크)MCP (모델 컨텍스트 프로토콜)MCP server (MCP 서버)MLX(엠엘엑스)ONNX(오닉스)PyTorch(파이토치)Ray(레이)Runtime(런타임)Streamlit(스트림릿)TensorFlow (텐서플로)TensorRT Edge-LLM(텐서RT 엣지 LLM)Transformer Engine(트랜스포머 엔진)Vercel AI SDK(버셀 AI SDK)x402 (에이전트 micropayment 프로토콜)

Alibaba Qwen (알리바바 큐원)Anthropic Claude(앤트로픽 클로드)ChatGPT-5.2 Instant (챗지피티 5.2 인스턴트)ChatGPT-5.2 Pro (챗지피티 5.2 프로)Claude(클로드)Claude Fable 5(클로드 페이블 5)Claude Opus(클로드 오퍼스)Claude Opus 4.5(클로드 오퍼스 4.5)Claude Opus 4.6(클로드 오퍼스 4.6)Claude Opus 4.7(클로드 오퍼스 4.7)Claude Opus 4.6(클로드 오퍼스 4.6)Claude Sonnet (클로드 소넷)Claude Sonnet 4.5(클로드 소네트 4.5)DALL-E (달리)DeepSeek (딥시크)deepseek-chat (딥시크 챗)DeepSeek R1(딥시크 R1)DeepSeek Reasoner (딥시크 리저너)DeepSeek-V3.2-Speciale (딥시크 V3.2-Speciale)DeepSeek V4 (딥시크 V4)FLUX.1 (플럭스 원)Gemini(제미니)Gemini 2.5 (제미나이 2.5)Gemini 2.5 Flash (제미나이 2.5 플래시)Gemini 2.5 Pro (제미나이 2.5 프로)Gemini Embedding(제미니 임베딩)Gemini Embedding 2(제미니 임베딩 2)Gemini Omni(제미니 옴니)Gemma (젬마)Gemma 3(젬마 3)Gemma 4(젬마 4)Gemma-4-26B-A4B-NVFP4(젬마 4 26B A4B NVFP4)GLM (지엘엠)GLM 5(지엘엠 5)GLM 5.1(지엘엠 5.1)GPT-2 (지피티-2)GPT-3 (지피티-3)GPT-3.5 (지피티-3.5)GPT-4 (지피티-4)GPT-4.1 (지피티 4.1)GPT-4o(지피티-4o)gpt-4o-mini (지피티-4o 미니)gpt-4o-mini-2024-07-18 스냅샷 GPT-5 (지피티-5)GPT-5.5 Instant (지피티 5.5 인스턴트)GPT-5-Codex (지피티 5 코덱스)GPT-5.1 (지피티 5.1)gpt-5.1-chat-latest (지피티 5.1 챗 레이티스트)GPT-5.1 Codex (지피티 5.1 코덱스)GPT-5.1 Codex mini (지피티 5.1 코덱스 미니)gpt-5.2 gpt-5.2-2025-12-11 (GPT-5.2 고정 스냅샷)gpt-5.2-chat-latest (지피티 5.2 챗 레이티스트)GPT-5.2 Pro (지피티 5.2 프로)GPT-5.2 Pro 2025-12-11 스냅샷 (지피티 5.2 프로 고정 버전)GPT-5.2 Thinking (지피티 5.2 씽킹)GPT-5.3 (지피티 5.3)gpt-5.3-chat-latest (지피티 5.3 챗 레이티스트)GPT-5.3 Instant (GPT-5.3 인스턴트)GPT-5.4 (지피티 5.4)gpt-5.4-2026-03-05 (GPT-5.4 고정 스냅샷)GPT-5.4 API (지피티 5.4 API)GPT-5.4-Cyber (지피티 5.4 사이버)GPT-5.4 Mini (지피티 5.4 미니)GPT-5.4 Pro (지피티 5.4 프로)GPT-5.4 Thinking (지피티 5.4 씽킹)GPT-5.5 (지피티 5.5)GPT-5.5 Instant (지피티 5.5 인스턴트)GPT-5.5 Pro (GPT-5.5 프로)GPT-5.5 Thinking (지피티 5.5 씽킹)GPT Image(지피티 이미지)gpt-image-2 (지피티 이미지 2)gpt-oss(지피티 오에스에스)GPT-OSS 20B(오픈 웨이트 모델)GPT-Rosalind(지피티-로절린드)Grok (그록)Imagen (이마젠)K2.5 (키미 K2.5)Kimi(키미)Kimi K2 (키미 K2)Kimi K2.6 (키미 K2.6)Llama (라마)Lyria (리리아)M2.7(엠투점칠)MiMo-V2.5-ASR (샤오미 음성인식 모델)MiniMax M2.7(미니맥스 M2.7)Mistral(미스트랄 모델 계열)Mistral AI (미스트랄 AI)Mixtral(믹스트랄)model="deepseek-reasoner" (딥시크 리저너 모델값)Mythos Preview (마이토스 프리뷰)Nano Banana(나노 바나나)Nemotron 3 Nano Omni (네모트론 3 나노 옴니)Nemotron OCR v2 (네모트론 OCR v2)o1(OpenAI 추론 모델)o3 (오쓰리)Phi (파이)Privacy Filter(프라이버시 필터)Qwen (큐원)큐웬 3.5(Qwen 3.5)Qwen3 (큐원3)Qwen3-14B (큐원3 14B)Qwen3-14B-GGUF (큐원3 14B GGUF)Qwen3-30B-A3B (큐웬3 30B A3B)Qwen3.5-122B-A10B (122B MoE 대체형)Qwen3.5-27B (큐웬3.5-27B)Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled (쿠엔3.5-27B 클로드 4.6 오퍼스 리즈닝 디스틸드)Qwen3.5-35B-A3B (큐원 3.5-35B-A3B)Qwen3.5-9B (큐원 3.5-9B)Qwen3.5-9B BF16 (큐원 3.5-9B BF16)Qwen3.6 (큐원 3.6)Qwen3.6-27B (큐원 3.6-27B)Qwen3.6 27B FP8 (큐원 3.6 27B FP8)Qwen3.6-35B-A3B (큐원 3.6-35B-A3B)Sora (소라)Stable Diffusion(스테이블 디퓨전)DeepSeek V2.5 (딥시크 V2.5)DeepSeek V3.2 (딥시크 V3.2)V3.2-Speciale (딥시크 V3.2-Speciale)V4-Flash (딥시크 V4-Flash)V4 Pro (딥시크 V4 프로)Veo (비오)Whisper (위스퍼)

24GB GPU(24GB VRAM 카드)A3B (활성 파라미터 3B 표기)A4B(활성 파라미터 4B)A4B MoE(A4B 전문가 혼합 표기)A4B NVFP4(A4B 엔브이FP4)AI Agent (AI 에이전트)Google Cloud Agent Gateway (에이전트 게이트웨이)Agent Identity(에이전트 신원)Agent Observability(에이전트 관측성)AI Mode (AI 모드)Alignment(정렬)안드로이드(Android)Anthropic(앤트로픽)API (애플리케이션 프로그래밍 인터페이스)Apple Silicon (애플 실리콘)Attention (어텐션)AWS Bedrock(AWS 베드록)Bedrock(베드록)BF16 (브레인 플로팅 포인트 16)BF16 KV (BF16 키-값 캐시)Blackwell (NVIDIA GPU 아키텍처)BrowseComp(브라우즈컴프)chat-latest (챗 레이티스트)ChatGPT Instant (챗지피티 인스턴트)CLI(명령줄 인터페이스)Cloud (클라우드)Coding Agent(코딩 에이전트)Context(컨텍스트)Context Window(컨텍스트 윈도우)CUDA(쿠다)CUDA 12.9(쿠다 12.9)dataset(데이터셋)Deep Research (딥 리서치)Developer Tools(개발자 도구)DFlash (디플래시)Diffusion Model(확산 모델)E2B (이투비)E4B (이포비)Embedding (임베딩)Enterprise(엔터프라이즈)Enterprise AI(엔터프라이즈 AI)F1 96(에프원 96 표기)F32 (32비트 부동소수점)File Search(파일 검색)FIM completion(중간 채우기 완성)Flash(플래시)FP16 (반정밀도 부동소수점)FP4 (4비트 부동소수점 포맷)FP4 Indexer(FP4 인덱서)FP8 (8비트 부동소수점 포맷)FP8 E4M3(8비트 E4M3 포맷)FP8 KV (FP8 키-값 캐시)FP8 양자화 가중치 FP8 Tensor Core(FP8 텐서 코어)Gated DeltaNet(게이티드 델타넷)GDDR7(그래픽 DRAM 7세대)GDDR7 ECC(오류 수정 GDDR7 메모리)Gemini Intelligence (제미니 인텔리전스)GPQA Diamond (지피큐에이 다이아몬드)GPT (생성형 사전학습 트랜스포머)GPU (그래픽 처리 장치)GPU VRAM(GPU 전용 비디오 메모리)GUI(그래픽 사용자 인터페이스)Hallucination (환각)HTTP API(HTTP 호출 인터페이스)Hugging Face Hub(허깅 페이스 허브)HumanEval(휴먼이밸)IDE (통합 개발 환경)Image Generation(이미지 생성)Inference (추론)Instant(인스턴트)INT4 (4비트 정수 정밀도)INT8 (8비트 정수 정밀도)K2.6 (키미 K2.6 줄임말)KV Cache (KV 캐시)Language Model (언어 모델)Linux(리눅스)LiveCodeBench(라이브코드벤치)LLM (거대 언어 모델)Local LLM (로컬 LLM)Long Context (긴 문맥)M5 Max(M5 맥스)M5 Max 64GB(M5 맥스 64GB)Mac(맥)Managed Agents(관리형 에이전트)Mega MoE(메가 MoE)Memory(메모리)Mixture of Experts(전문가 혼합)MMLU(엠엠엘유)MMLU Pro(엠엠엘유 프로)모델 Multimodal AI(멀티모달 AI)Mythos (마이토스)Nano Omni (나노 옴니)Nemotron(네모트론)NL2Repo 39.8(엔엘투레포 39.8)Nous Research (누스 리서치)NVFP4 (NVIDIA FP4 포맷)NVIDIA GPU(엔비디아 GPU)NVLink(엔비디아 GPU 인터커넥트)OAuth(권한 위임)OCR (광학 문자 인식)On-device AI(온디바이스)Open-weight(오픈 웨이트)openai-agents>=0.14.0(오픈AI 에이전트 SDK 0.14.0 이상)OpenAI-compatible(OpenAI 호환)p95(95번째 백분위 지연시간)Personal Intelligence(퍼스널 인텔리전스)PrivateLink(프라이빗링크)Project Glasswing (프로젝트 글래스윙)PyPI (파이썬 패키지 인덱스)Python (파이썬)Q8 KV (Q8 키-값 캐시)Qwen3.6-35B-A3B Benchmarks (큐웬3.6 벤치마크)RAM (시스템 메모리)Reasoning Model (추론 모델)reasoning content(추론 내용)Reasoning Model (추론 모델)RTX PRO (엔비디아 전문가용 GPU 계열)SaaS(서비스형 소프트웨어)Search (검색)Small Language Model(소형 언어 모델)SWE-bench(깃허브 이슈 해결 벤치마크)SWE-Bench Pro(소프트웨어 엔지니어링 에이전트 벤치마크)SWE-bench Verified (스위벤치 베리파이드)SWE Multilingual(다국어 소프트웨어 엔지니어링 벤치마크 표기)SWE-Pro(에스더블유이 프로 표기)SwiGLU(스위글루)Tensor Core(텐서 코어)Terminal-Bench (터미널 벤치)Terminal-Bench 2.0(터미널 벤치 2.0)Thinking (씽킹)tok/s(초당 토큰)Token (토큰)Token Plan(토큰 플랜)TPU(텐서 처리 장치)Transformer (트랜스포머)Trusted Access (신뢰 기반 접근)TypeScript(타입스크립트)Vertex AI (버텍스 AI)VIBE-Pro(바이브 프로)Video Generation(영상 생성)Vision-Language Model (비전-언어 모델)VRAM(비디오 메모리)Model Weights(웨이트)Windows(윈도우)Word(워드 문서)Xiaomi MiMo(샤오미 미모)YaRN (야른)

한 줄 정의

Privacy Filter(프라이버시 필터)는 OpenAI가 공개한 텍스트 개인정보 탐지 모델이야. OpenAI 발표는 이 공개본을 personally identifiable information, 줄여서 PII를 찾아 가리는 open-weight 모델로 소개했고, Hugging Face 공개 카드는 대량 텍스트 정제 작업에 쓰는 토큰 라벨링 모델이라고 설명해.

쉽게 말하면 ChatGPT나 OpenAI API에 보내기 전 텍스트에서 이름, 이메일, 전화번호, 계정번호, API 키처럼 민감한 문자열의 위치를 찾아 주는 모델이야. 그 결과를 이용해 원문을 [PRIVATE_EMAIL] 같은 라벨로 바꾸거나, 사람이 다시 확인할 후보 목록을 만들 수 있어.

이 모델로 무엇을 할 수 있나

고객 지원 로그, 내부 리뷰 메모, 검색 색인용 문서에서 개인 이름, 이메일, 전화번호, 주소, 계정번호를 먼저 마스킹할 수 있어.
학습 후보 데이터나 RAG 색인에 넣기 전 텍스트를 로컬에서 정리해, 원문 개인정보가 큰 모델 호출이나 벡터 저장소로 바로 들어가는 일을 줄일 수 있어.
코드 주변 텍스트와 운영 로그에서 API 키, 비밀번호, 계정 식별자처럼 secret 라벨에 가까운 span을 찾는 보조 필터로 쓸 수 있어.
기본 라벨 기준이 팀 정책과 맞지 않으면 작은 도메인 데이터로 fine-tuning해서 놓치는 항목과 과하게 가리는 항목의 균형을 다시 잡을 수 있어.

어떻게 작동하나

이 공개본은 새 문장을 생성하는 LLM처럼 다음 토큰을 예측하지 않아. 입력 텍스트를 잘게 나눈 뒤 각 토큰에 private_person, private_email, private_phone, account_number, secret 같은 라벨을 붙여. 공식 발표 기준 라벨은 8개이고, BIOES 방식은 한 범위가 시작인지, 안쪽인지, 끝인지, 혼자 떨어진 항목인지를 표시해. 그래서 8개 라벨마다 4가지 위치 태그가 붙고 배경값 O가 더해져 8 × 4 + 1 = 33개 토큰별 출력값이 나와.

출발점은 gpt-oss와 비슷한 구조의 사전학습 체크포인트지만, 이건 gpt-oss의 하위 버전이라는 뜻은 아니야. 다음 단어를 맞히는 출력부를 떼고, 토큰마다 개인정보 라벨을 붙이는 출력부로 바꾼 별도 모델로 보는 게 맞아. HF 문서는 8개 Transformer 블록, grouped-query attention, 128개 전문가 모듈을 가진 sparse Mixture of Experts 구조, 토큰마다 4개 전문가를 고르는 라우팅을 적고 있어. 그래서 전체 규모는 1.5B 파라미터지만 한 번 계산할 때 켜지는 파라미터는 50M이야.

마지막에는 Viterbi decoding이 가능한 라벨 순서를 따라 범위 경계를 정리해. 이 과정 덕분에 John과 Smith를 서로 다른 이름으로 흩뜨리기보다 하나의 사람 이름 범위로 묶는 식의 안정성을 노릴 수 있어.

왜 중요한가

중요한 이유는 민감한 원문을 외부 호출 뒤쪽에서 뒤늦게 처리하는 대신, 데이터가 이동하기 전에 먼저 검사할 수 있게 해 주기 때문이야. OpenAI는 128,000토큰 컨텍스트, 1.5B total / 50M active 구조를 내세워 긴 문서를 한 번에 다루는 작업을 겨냥한다고 설명해. 개발팀 입장에서는 고객 지원 로그를 검색 색인으로 넣기 전, 내부 리뷰 데이터를 RAG 저장소에 넣기 전, 학습 후보 텍스트를 고르기 전 같은 위치에 둘 수 있어.

On-device AI 문맥에서도 의미가 있어. VentureBeat는 이 모델이 노트북이나 브라우저 WebGPU에서 실행될 수 있다고 설명하고, 공개 문서도 Transformers.js 예시에서 dtype: "q4"를 보여줘. 민감한 원문을 외부 서버로 보내기 전에 로컬에서 먼저 마스킹할 수 있다는 점이 핵심이고, Apache 2.0 라이선스라 상업 제품 안에 넣고 커스터마이징할 여지도 커.

성능 수치도 그냥 장식은 아니야. OpenAI는 PII-Masking-300k에서 F1 96%, 보정된 버전에서 F1 97.43%를 제시했고, domain adaptation 평가에서는 F1이 54%에서 96%로 오른 사례를 공개했어. 다만 이 숫자는 OpenAI가 설명한 평가 조건과 label policy 안에서 읽어야 해. 팀 데이터가 한국어 상담 로그, 의료 문서, 법무 자료, 코드 저장소 secret처럼 다르면 자체 샘플로 다시 재야 한다.

같이 보면 좋은 모델

gpt-oss: 구조가 닮았다는 말은 계열 관계가 아니라 설계 힌트로 읽어야 해. gpt-oss는 범용 추론 모델이고, 이 항목은 개인정보 범위 표시가 목적이야.
ChatGPT: ChatGPT는 사용자가 대화로 쓰는 서비스야. 프라이버시 필터는 그런 서비스나 API 호출 앞에서 텍스트를 다듬는 쪽에 놓여.
LLM: 일반 LLM은 답변을 생성하지만, 여기서는 입력 토큰마다 라벨을 붙여. 출력이 문장인지, 범위 표시인지가 갈리는 기준이야.
OpenAI API: OpenAI API는 관리형 호출 경로이고, 이 공개본은 자체 환경에 올려 쓸 수 있는 open-weight 모델이야. 민감한 원문을 API로 보내기 전에 로컬에서 다룰지 판단할 때 같이 보면 좋아.

무엇과 구분하나

이 이름은 FP16이나 BF16 같은 정밀도 이름이 아니야. 공개 카드의 tensor type은 F32와 BF16으로 표시되고, 브라우저 예시는 q4 quantization을 따로 써. 그러니까 이 이름이 나오면 먼저 “개인정보 span을 찾는 모델”로 읽고, 그다음에 어떤 런타임과 숫자 형식으로 배포할지 확인하는 순서가 맞아.

Distillation과도 다르다. 작은 모델이라는 점만 보고 증류 모델로 읽으면 헷갈려. 핵심 설명은 큰 모델의 행동을 작은 모델에 옮겨 배웠다는 이야기가 아니라, 사전학습 체크포인트를 개인정보 라벨링 작업에 맞게 다시 훈련했다는 쪽이야. 또 attention을 쓰지만 attention 최적화 기법 자체를 뜻하지도 않아. attention과 Mixture of Experts는 내부 계산 구조이고, 제품으로서의 역할은 개인정보 범위 표시야.

주의해서 볼 점

이 도구를 법무팀 통과표처럼 보면 위험해. OpenAI와 HF 문서 모두 익명화 장치, 법적 준수 증명, 안전성 보장으로 쓰지 말라고 선을 그어. 기본 8개 라벨에 맞는 범위를 찾는 모델이라서, 조직마다 다른 개인정보 정의나 보관 정책을 런타임 옵션만으로 바꾸기는 어렵고 정책이 다르면 보정 평가나 fine-tuning이 필요해.

실무에서 확인할 항목은 네 가지야.

실제 데이터에서 missed span과 over-redaction을 같이 측정해. 놓치면 노출이고, 너무 많이 지우면 감사·리뷰 문맥이 사라져.
영어가 아닌 텍스트, 비라틴 문자, 지역별 이름 규칙, 도메인별 계정번호와 secret 패턴을 따로 평가해.
의료, 법무, 금융, HR, 교육, 정부 업무에서는 사람 검수 경로를 남겨.
Hugging Face 모델 카드의 라이선스, tensor type, 다운로드 파일, 런타임 지원을 배포 전에 다시 확인해.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-03 KST

검증 생성: AI + 편집 검토 · 2026-05-03 상태: 통과

통과 원문 대조 검증 출처 3

공식 발표, 허브 문서, 독립 보도를 나눠 보고 이 항목을 개인정보 범위 표시 모델로 맞췄어.

독자 문제 대조: 이 항목을 개인정보 보호 플랫폼 전체가 아니라 긴 텍스트에서 민감한 범위를 찾아 가리는 모델로 읽게 했어.
OpenAI 발표는 공개 모델의 역할을 텍스트 안의 personally identifiable information 탐지와 redaction으로 설명해.
HF 공개 카드는 대량 텍스트 정제 작업에서 앞뒤 문맥을 함께 보며 토큰마다 라벨을 붙이는 모델로 적고 있어.
VentureBeat 보도도 온디바이스 데이터 정제 모델로 소개하며 Hugging Face와 Apache 2.0 라이선스 공개 맥락을 확인해 줘.
본문은 법적 보호 체계 전체가 아니라 로그, 색인, 학습 후보 텍스트에서 민감한 문자열을 찾는 좁은 역할로 범위를 제한했어.

통과 교차 검증 검증 출처 3

세 출처가 겹치는 범위만 본문에 넣고, 한 출처의 홍보성 표현은 운영 판단 문장으로 낮췄어.

비교 기준: OpenAI 발표는 구조와 성능 수치, HF 카드는 실행 예시와 제한사항, VentureBeat는 온프레미스·브라우저 실행 맥락을 맡게 나눠 봤어.
세 출처 모두 로컬 또는 온프레미스 실행을 중요한 장점으로 다루지만, 본문에서는 데이터가 절대 새지 않는다는 보장으로 확대하지 않았어.
Apache 2.0 공개, Hugging Face 배포, Transformers.js 또는 WebGPU 실행 가능성은 서로 교차 확인되는 배포 신호로만 썼어.
고위험 의료·법무·금융 업무에서는 사람 검수와 도메인 평가가 필요하다는 제한사항을 OpenAI 발표와 모델 문서 양쪽에서 확인했어.

통과 수치 검증 검증 출처 3

파라미터, 컨텍스트, 라벨 수, 출력 클래스, 성능 수치를 출처별로 다시 계산하고 흔들리는 숫자는 확인 시점 표시로 제한했어.

공식 발표일은 2026-04-22이고, frontmatter의 firstMentioned도 외부 공개일과 혼동되지 않게 그 날짜로 맞췄어.
OpenAI 발표와 HF 문서는 1.5B total parameters, 50M active parameters, 128,000-token context window를 같은 핵심 수치로 제시해.
탐지 범위는 `private_person`, `private_address`, `private_email`, `private_phone`, `private_url`, `private_date`, `account_number`, `secret`의 8개 개인정보 라벨이야.
BIOES 방식에서는 8개 라벨마다 시작, 내부, 끝, 단독 태그가 붙고 배경값 `O`가 더해져 `8 × 4 + 1 = 33`개 토큰별 출력값이 돼.
OpenAI는 PII-Masking-300k에서 F1 96%, 보정 버전에서 F1 97.43%, domain adaptation 예시에서 F1 54%에서 96%로 오른 수치를 제시해.
모델 허브는 확인 시점에 likes 1.21k, downloads last month 104,695, tensor type F32와 BF16을 표시하지만, 이 숫자는 배포 메타데이터라 바뀔 수 있어.

통과 비판 검토 검증 출처 3

이 공개 모델을 익명화 장치, 법적 준수 증명, 모든 언어 개인정보 탐지기로 과장하지 않게 제한을 먼저 적었어.

OpenAI와 모델 문서는 이 도구를 anonymization tool, compliance certification, safety guarantee로 보지 말라고 경고해.
기본 라벨 체계가 고정돼 있어서 조직별 개인정보 정책이 다르면 보정 평가나 fine-tuning이 필요해.
비영어 텍스트, 비라틴 문자, 지역별 이름 규칙, 훈련 분포와 다른 도메인에서는 성능이 떨어질 수 있다는 제한을 본문에 반영했어.
의료, 법무, 금융, HR, 교육, 정부 업무에서는 놓친 범위와 과도한 가림 모두 비용이 크므로 사람 검수 경로를 남기게 썼어.

이 도구는 개인정보 노출을 줄이는 층 하나이지, 데이터 거버넌스 전체를 대신하는 제품은 아니야.

출처: OpenAI — Introducing OpenAI Privacy Filter , openai/privacy-filter — Hugging Face , VentureBeat — OpenAI launches Privacy Filter