이 용어는 어디까지 신뢰할 수 있나요?

각 용어는 최신 공개 자료 기반으로 정리되며, 출처와 검증 기록을 바탕으로 점진적으로 업데이트됩니다.

PII-Masking-300k(피아이아이 마스킹 300K)

다른 이름: pii masking 300kPII-Masking-300kai4privacy/pii-masking-300k

AI4Privacy가 Hugging Face에 공개한 개인정보 마스킹 데이터셋이자 벤치마크야. OpenAI Privacy Filter 같은 모델이 긴 텍스트에서 민감한 정보를 얼마나 잘 찾는지 재는 공개 기준으로 자주 인용돼.

Hugging Face model card

ai4privacy/pii-masking-300k

모델 카드

Task token-classification and text-generation dataset

Library datasets

Likes 94

Downloads 2.7k

License license.md

Parameters 225,405 rows; 30.4M text tokens; 7.6M PII tokens

Precision JSON dataset, auto-converted to Parquet

Updated 2026-04-05

Access Hugging Face dataset repository and `datasets` library

전체 AI 기술 맵에서의 위치

응용 (Application)

프로젝트 (Project)

데이터셋 (Dataset)

기법 (Technique)

프레임워크 (Framework)

모델 (Model)

개념 (Concept)

Agents SDK(에이전트 SDK)AI Studio (AI 스튜디오)Aider(에이더)Alibaba Cloud API(알리바바 클라우드 API)Alibaba Cloud Model Studio(알리바바 클라우드 모델 스튜디오)Amazon Bedrock(아마존 베드록)Anthropic API(앤트로픽 API)App Store(앱 스토어)Batch API(배치 API)BentoML(벤토엠엘)Chat (대화형 AI 인터페이스)Chat Completions(챗 컴플리션스)ChatGPT(챗지피티)Chroma(크로마)Claude Code(클로드 코드)Claude Code Remote Control(클로드 코드 리모트 컨트롤)Claude Cowork(클로드 코워크)Claude Desktop(클로드 데스크톱)claude remote-control(클로드 리모트 컨트롤 명령)claude --version (버전 조회)claude.ai(클로드 웹 앱)Cline(클라인)CloudTrail(클라우드트레일)Codex(코덱스)Codex CLI(코덱스 CLI)ComfyUI(컴피유아이)Continue(컨티뉴)GitHub Copilot (깃허브 코파일럿)Cursor(커서)DeepSeek API(딥시크 API)DGX B200(디지엑스 B200)DGX Spark(디지엑스 스파크)Docker(도커)Excel(엑셀)FAISS (페이스)Gemini API(제미니 API)Gemini API File Search(제미니 API 파일 검색)Gemini Developer API(제미니 디벨로퍼 API)Gemini Enterprise Agent Platform(제미니 엔터프라이즈 에이전트 플랫폼)GitHub (깃허브)Gmail(지메일)Google AI Studio(구글 AI 스튜디오)Google Calendar(구글 캘린더)Google Docs(구글 문서)Google Drive(구글 드라이브)Google Search(구글 검색)Google Sheets(구글 시트)H100 (엔비디아 호퍼 GPU)Hugging Face(허깅 페이스)Jetson Thor(젯슨 토르)Kimi API(키미 API)Kimi Code(키미 코드)Kimi.com(키미닷컴)KTransformers (케이트랜스포머스)Live API(라이브 API)llama-cli (로컬 LLM CLI)llama.cpp(로컬 LLM 런타임)llama-server(로컬 LLM 서빙 서버)llama.cpp (로컬 LLM 추론 엔진)LM Studio(엘엠 스튜디오)LocalLLaMA (로컬라마)Microsoft Foundry(마이크로소프트 파운드리)MiMo Code (미모 코드)MLflow(엠엘플로우)Modal(모달)Model Garden(모델 가든)Model Studio(모델 스튜디오)Model Studio API(모델 스튜디오 API)ModelScope(모델스코프)n8n(엔에잇엔)Ollama(올라마)OpenAI API(오픈에이아이 API)OpenAI Chat Completion(오픈AI 챗 컴플리션)OpenAI SDK(오픈에이아이 SDK)OpenClaw(오픈클로)OpenRouter(오픈라우터)Perplexity (퍼플렉시티)Pinecone (파인콘)Qdrant (큐드런트)Qwen API(큐원 API)Qwen Code(큐원 코드)Qwen Studio(큐원 스튜디오)Raspberry Pi (라즈베리 파이)Replicate(레플리케이트)Responses API(리스폰스 API)SGLang(에스지랭)Studio(스튜디오)Supabase(수파베이스)Tokenizer(토크나이저)Triton Inference Server(트리톤 추론 서버)Vector Database (벡터 데이터베이스)vLLM(브이엘엘엠)VS Code(비주얼 스튜디오 코드)Weaviate(위비에이트)Weights & Biases(웨이츠 앤 바이어시스)Windsurf(윈드서프)

Activepieces (액티브피시스)agent-skills Agentic AQUA (에이전틱 아쿠아)AgentTrust Apache Airflow (아파치 에어플로)Cairn (케언)DeepGEMM(딥시크 CUDA 커널 라이브러리)Engram(엔그램)HyperFrames (하이퍼프레임스)LightRAG (라이트RAG)Manifest (매니페스트)mcp-mydisease (MyDisease.info MCP 서버)mcp-xray (Jira Xray MCP 서버)NautilusTrader (노틸러스 트레이더)NostalgiaForInfinity (노스탤지아 포 인피니티)opencodex(오픈코덱스)OpenMemory (오픈메모리)PocketBase (포켓베이스)Microsoft Qlib (마이크로소프트 Qlib)Savvly MCP (세이블리 MCP 서버)Tmax(티맥스)whisper.cpp (위스퍼.cpp)yfinance (와이파이낸스)

Nemotron-Personas-Korea (네모트론 페르소나스 코리아)PII-Masking-300k(피아이아이 마스킹 300K)

Agentic AI (에이전틱 AI)Agentic Coding(에이전틱 코딩)benchmark (벤치마크)Chain-of-Thought(연쇄 추론 유도)DeepSeek Sparse Attention (딥시크 스파스 어텐션)Distillation (지식 증류)Eval(평가)Fine-tuning (파인튜닝)Function Calling(함수 호출)Grounding (그라운딩)Guardrail(가드레일)--kv-cache-dtype bfloat16 (BF16 KV 캐시 저장 형식 플래그)Prompt Caching(프롬프트 캐싱)Prompt Engineering(프롬프트 엔지니어링)Quantization (양자화)RAG (검색 증강 생성)reasoning.effort (리즈닝 이포트)Red Teaming (레드 팀잉)RLHF(인간 피드백 기반 강화학습)Speech to Text(음성 인식)Synthetic Data(합성 데이터)Text to Speech(음성 합성)Tool Use(도구 사용)Training(학습)Vibe Coding(바이브 코딩)

Agent Platform(에이전트 플랫폼)Agent Runtime(에이전트 런타임)AutoGen(오토젠)Claude Managed Agents(클로드 매니지드 에이전트)CrewAI (크루에이아이)DeepSpeed(딥스피드)GGUF(GGUF 모델 파일 형식)Gradio (그라디오)JAX (잭스)Kubeflow(쿠브플로우)LangChain (랭체인)LangGraph(랭그래프)LlamaIndex (라마인덱스)llm-server(로컬 llama.cpp 서빙 자동화 프레임워크)MCP (모델 컨텍스트 프로토콜)MCP server (MCP 서버)MLX(엠엘엑스)ONNX(오닉스)PyTorch(파이토치)Ray(레이)Runtime(런타임)Streamlit(스트림릿)TensorFlow (텐서플로)TensorRT Edge-LLM(텐서RT 엣지 LLM)Transformer Engine(트랜스포머 엔진)Vercel AI SDK(버셀 AI SDK)x402 (에이전트 micropayment 프로토콜)

Alibaba Qwen (알리바바 큐원)Anthropic Claude(앤트로픽 클로드)ChatGPT-5.2 Instant (챗지피티 5.2 인스턴트)ChatGPT-5.2 Pro (챗지피티 5.2 프로)Claude(클로드)Claude Fable 5(클로드 페이블 5)Claude Opus(클로드 오퍼스)Claude Opus 4.5(클로드 오퍼스 4.5)Claude Opus 4.6(클로드 오퍼스 4.6)Claude Opus 4.7(클로드 오퍼스 4.7)Claude Opus 4.6(클로드 오퍼스 4.6)Claude Sonnet (클로드 소넷)Claude Sonnet 4.5(클로드 소네트 4.5)DALL-E (달리)DeepSeek (딥시크)deepseek-chat (딥시크 챗)DeepSeek R1(딥시크 R1)DeepSeek Reasoner (딥시크 리저너)DeepSeek-V3.2-Speciale (딥시크 V3.2-Speciale)DeepSeek V4 (딥시크 V4)FLUX.1 (플럭스 원)Gemini(제미니)Gemini 2.5 (제미나이 2.5)Gemini 2.5 Flash (제미나이 2.5 플래시)Gemini 2.5 Pro (제미나이 2.5 프로)Gemini Embedding(제미니 임베딩)Gemini Embedding 2(제미니 임베딩 2)Gemini Omni(제미니 옴니)Gemma (젬마)Gemma 3(젬마 3)Gemma 4(젬마 4)Gemma-4-26B-A4B-NVFP4(젬마 4 26B A4B NVFP4)GLM (지엘엠)GLM 5(지엘엠 5)GLM 5.1(지엘엠 5.1)GPT-2 (지피티-2)GPT-3 (지피티-3)GPT-3.5 (지피티-3.5)GPT-4 (지피티-4)GPT-4.1 (지피티 4.1)GPT-4o(지피티-4o)gpt-4o-mini (지피티-4o 미니)gpt-4o-mini-2024-07-18 스냅샷 GPT-5 (지피티-5)GPT-5.5 Instant (지피티 5.5 인스턴트)GPT-5-Codex (지피티 5 코덱스)GPT-5.1 (지피티 5.1)gpt-5.1-chat-latest (지피티 5.1 챗 레이티스트)GPT-5.1 Codex (지피티 5.1 코덱스)GPT-5.1 Codex mini (지피티 5.1 코덱스 미니)gpt-5.2 gpt-5.2-2025-12-11 (GPT-5.2 고정 스냅샷)gpt-5.2-chat-latest (지피티 5.2 챗 레이티스트)GPT-5.2 Pro (지피티 5.2 프로)GPT-5.2 Pro 2025-12-11 스냅샷 (지피티 5.2 프로 고정 버전)GPT-5.2 Thinking (지피티 5.2 씽킹)GPT-5.3 (지피티 5.3)gpt-5.3-chat-latest (지피티 5.3 챗 레이티스트)GPT-5.3 Instant (GPT-5.3 인스턴트)GPT-5.4 (지피티 5.4)gpt-5.4-2026-03-05 (GPT-5.4 고정 스냅샷)GPT-5.4 API (지피티 5.4 API)GPT-5.4-Cyber (지피티 5.4 사이버)GPT-5.4 Mini (지피티 5.4 미니)GPT-5.4 Pro (지피티 5.4 프로)GPT-5.4 Thinking (지피티 5.4 씽킹)GPT-5.5 (지피티 5.5)GPT-5.5 Instant (지피티 5.5 인스턴트)GPT-5.5 Pro (GPT-5.5 프로)GPT-5.5 Thinking (지피티 5.5 씽킹)GPT Image(지피티 이미지)gpt-image-2 (지피티 이미지 2)gpt-oss(지피티 오에스에스)GPT-OSS 20B(오픈 웨이트 모델)GPT-Rosalind(지피티-로절린드)Grok (그록)Imagen (이마젠)K2.5 (키미 K2.5)Kimi(키미)Kimi K2 (키미 K2)Kimi K2.6 (키미 K2.6)Llama (라마)Lyria (리리아)M2.7(엠투점칠)MiMo-V2.5-ASR (샤오미 음성인식 모델)MiniMax M2.7(미니맥스 M2.7)Mistral(미스트랄 모델 계열)Mistral AI (미스트랄 AI)Mixtral(믹스트랄)model="deepseek-reasoner" (딥시크 리저너 모델값)Mythos Preview (마이토스 프리뷰)Nano Banana(나노 바나나)Nemotron 3 Nano Omni (네모트론 3 나노 옴니)Nemotron OCR v2 (네모트론 OCR v2)o1(OpenAI 추론 모델)o3 (오쓰리)Phi (파이)Privacy Filter(프라이버시 필터)Qwen (큐원)큐웬 3.5(Qwen 3.5)Qwen3 (큐원3)Qwen3-14B (큐원3 14B)Qwen3-14B-GGUF (큐원3 14B GGUF)Qwen3-30B-A3B (큐웬3 30B A3B)Qwen3.5-122B-A10B (122B MoE 대체형)Qwen3.5-27B (큐웬3.5-27B)Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled (쿠엔3.5-27B 클로드 4.6 오퍼스 리즈닝 디스틸드)Qwen3.5-35B-A3B (큐원 3.5-35B-A3B)Qwen3.5-9B (큐원 3.5-9B)Qwen3.5-9B BF16 (큐원 3.5-9B BF16)Qwen3.6 (큐원 3.6)Qwen3.6-27B (큐원 3.6-27B)Qwen3.6 27B FP8 (큐원 3.6 27B FP8)Qwen3.6-35B-A3B (큐원 3.6-35B-A3B)Sora (소라)Stable Diffusion(스테이블 디퓨전)DeepSeek V2.5 (딥시크 V2.5)DeepSeek V3.2 (딥시크 V3.2)V3.2-Speciale (딥시크 V3.2-Speciale)V4-Flash (딥시크 V4-Flash)V4 Pro (딥시크 V4 프로)Veo (비오)Whisper (위스퍼)

24GB GPU(24GB VRAM 카드)A3B (활성 파라미터 3B 표기)A4B(활성 파라미터 4B)A4B MoE(A4B 전문가 혼합 표기)A4B NVFP4(A4B 엔브이FP4)AI Agent (AI 에이전트)Google Cloud Agent Gateway (에이전트 게이트웨이)Agent Identity(에이전트 신원)Agent Observability(에이전트 관측성)AI Mode (AI 모드)Alignment(정렬)안드로이드(Android)Anthropic(앤트로픽)API (애플리케이션 프로그래밍 인터페이스)Apple Silicon (애플 실리콘)Attention (어텐션)AWS Bedrock(AWS 베드록)Bedrock(베드록)BF16 (브레인 플로팅 포인트 16)BF16 KV (BF16 키-값 캐시)Blackwell (NVIDIA GPU 아키텍처)BrowseComp(브라우즈컴프)chat-latest (챗 레이티스트)ChatGPT Instant (챗지피티 인스턴트)CLI(명령줄 인터페이스)Cloud (클라우드)Coding Agent(코딩 에이전트)Context(컨텍스트)Context Window(컨텍스트 윈도우)CUDA(쿠다)CUDA 12.9(쿠다 12.9)dataset(데이터셋)Deep Research (딥 리서치)Developer Tools(개발자 도구)DFlash (디플래시)Diffusion Model(확산 모델)E2B (이투비)E4B (이포비)Embedding (임베딩)Enterprise(엔터프라이즈)Enterprise AI(엔터프라이즈 AI)F1 96(에프원 96 표기)F32 (32비트 부동소수점)File Search(파일 검색)FIM completion(중간 채우기 완성)Flash(플래시)FP16 (반정밀도 부동소수점)FP4 (4비트 부동소수점 포맷)FP4 Indexer(FP4 인덱서)FP8 (8비트 부동소수점 포맷)FP8 E4M3(8비트 E4M3 포맷)FP8 KV (FP8 키-값 캐시)FP8 양자화 가중치 FP8 Tensor Core(FP8 텐서 코어)Gated DeltaNet(게이티드 델타넷)GDDR7(그래픽 DRAM 7세대)GDDR7 ECC(오류 수정 GDDR7 메모리)Gemini Intelligence (제미니 인텔리전스)GPQA Diamond (지피큐에이 다이아몬드)GPT (생성형 사전학습 트랜스포머)GPU (그래픽 처리 장치)GPU VRAM(GPU 전용 비디오 메모리)GUI(그래픽 사용자 인터페이스)Hallucination (환각)HTTP API(HTTP 호출 인터페이스)Hugging Face Hub(허깅 페이스 허브)HumanEval(휴먼이밸)IDE (통합 개발 환경)Image Generation(이미지 생성)Inference (추론)Instant(인스턴트)INT4 (4비트 정수 정밀도)INT8 (8비트 정수 정밀도)K2.6 (키미 K2.6 줄임말)KV Cache (KV 캐시)Language Model (언어 모델)Linux(리눅스)LiveCodeBench(라이브코드벤치)LLM (거대 언어 모델)Local LLM (로컬 LLM)Long Context (긴 문맥)M5 Max(M5 맥스)M5 Max 64GB(M5 맥스 64GB)Mac(맥)Managed Agents(관리형 에이전트)Mega MoE(메가 MoE)Memory(메모리)Mixture of Experts(전문가 혼합)MMLU(엠엠엘유)MMLU Pro(엠엠엘유 프로)모델 Multimodal AI(멀티모달 AI)Mythos (마이토스)Nano Omni (나노 옴니)Nemotron(네모트론)NL2Repo 39.8(엔엘투레포 39.8)Nous Research (누스 리서치)NVFP4 (NVIDIA FP4 포맷)NVIDIA GPU(엔비디아 GPU)NVLink(엔비디아 GPU 인터커넥트)OAuth(권한 위임)OCR (광학 문자 인식)On-device AI(온디바이스)Open-weight(오픈 웨이트)openai-agents>=0.14.0(오픈AI 에이전트 SDK 0.14.0 이상)OpenAI-compatible(OpenAI 호환)p95(95번째 백분위 지연시간)Personal Intelligence(퍼스널 인텔리전스)PrivateLink(프라이빗링크)Project Glasswing (프로젝트 글래스윙)PyPI (파이썬 패키지 인덱스)Python (파이썬)Q8 KV (Q8 키-값 캐시)Qwen3.6-35B-A3B Benchmarks (큐웬3.6 벤치마크)RAM (시스템 메모리)Reasoning Model (추론 모델)reasoning content(추론 내용)Reasoning Model (추론 모델)RTX PRO (엔비디아 전문가용 GPU 계열)SaaS(서비스형 소프트웨어)Search (검색)Small Language Model(소형 언어 모델)SWE-bench(깃허브 이슈 해결 벤치마크)SWE-Bench Pro(소프트웨어 엔지니어링 에이전트 벤치마크)SWE-bench Verified (스위벤치 베리파이드)SWE Multilingual(다국어 소프트웨어 엔지니어링 벤치마크 표기)SWE-Pro(에스더블유이 프로 표기)SwiGLU(스위글루)Tensor Core(텐서 코어)Terminal-Bench (터미널 벤치)Terminal-Bench 2.0(터미널 벤치 2.0)Thinking (씽킹)tok/s(초당 토큰)Token (토큰)Token Plan(토큰 플랜)TPU(텐서 처리 장치)Transformer (트랜스포머)Trusted Access (신뢰 기반 접근)TypeScript(타입스크립트)Vertex AI (버텍스 AI)VIBE-Pro(바이브 프로)Video Generation(영상 생성)Vision-Language Model (비전-언어 모델)VRAM(비디오 메모리)Model Weights(웨이트)Windows(윈도우)Word(워드 문서)Xiaomi MiMo(샤오미 미모)YaRN (야른)

한 줄 정의

PII-Masking-300k는 Hugging Face에 공개된 개인정보 마스킹 데이터셋이자 benchmark야. 긴 자유 텍스트 안에서 이름, 이메일, 전화번호, 계정번호, 금융 식별자 같은 민감한 span을 얼마나 잘 찾고 가리는지 재는 공개 기준으로 쓰여.

중요한 건 이 이름이 OpenAI의 공개 모델 이름이 아니라는 점이야. Privacy Filter는 이 시험지에서 점수를 낸 모델이고, 이 항목은 그 점수를 재는 기준셋에 가깝다.

어떻게 작동하나

Hugging Face dataset viewer 기준 이 데이터셋은 현재 225,405행으로 보이고, train 178k와 validation 47.7k split을 제공해. 카드 본문은 OpenPII-220k와 FinPII-80k 두 하위 셋을 설명하고, 약 220,000+ examples, 30.4M text tokens, 7.6M PII tokens를 적고 있어.

구성도 꽤 실무형이야. source_text에는 원문이 들어 있고, target_text에는 마스킹된 결과가 들어 있어. 여기에 privacy_mask, span_labels, 토큰화된 mbert_text_tokens, mbert_bio_labels까지 같이 있어서, span detection 쪽 평가나 fine-tuning 둘 다 걸어 보기 좋아.

예시도 꽤 구체적이야. Viewer에는 회의 공지문에서 wynqvrh053 같은 사용자명과 10:20am 같은 시간을 가린 row가 있고, 지원서 JSON 비슷한 예시에서는 이메일, 사회보장번호, 주소, 비밀번호를 마스킹한 row도 보여. 그래서 논문용 숫자만 보는 데이터가 아니라 실제 로그·문서·폼 입력과 닮은 문자열 묶음을 다루는 셋으로 읽는 편이 맞아.

범위는 생각보다 넓어. Dataset card는 OpenPII-220k에 27개 PII classes와 749개 discussion subjects를 적고, FinPII에는 금융·보험 쪽 추가 클래스 약 20개가 있다고 설명해. 언어도 영어, 프랑스어, 독일어, 이탈리아어, 네덜란드어, 스페인어까지 6개를 다루고 8개 jurisdiction을 언급해.

여기서 한 번 더 구분할 게 있어. Privacy Filter 공개 모델 카드는 private_person, private_email, secret 같은 8개 라벨 체계를 말해. 그러니까 같은 benchmark 이름이 나와도 데이터셋의 전체 클래스 체계와 공개 모델의 실제 출력 라벨은 일대일 대응이 아니야.

왜 중요한가

이 공개 benchmark가 중요한 이유는 PII 마스킹 모델 소개에서 숫자가 제일 먼저 붙는 기준 중 하나라서야. OpenAI는 2026년 4월 22일 Privacy Filter를 공개하면서 여기서 F1 96%, annotation issue를 보정한 버전에서 F1 97.43%를 기록했다고 적었어. precision은 94.04%와 96.79%, recall은 98.04%와 98.08%로 같이 공개됐고.

그래서 기사나 모델 카드에서 이 이름이 보이면 먼저 두 가지를 물어보면 돼. 하나는 “이 숫자가 공개 benchmark 기준인가”이고, 다른 하나는 “우리 팀의 실제 라벨 정책과 언어 분포에도 맞는가”야. 이 질문을 안 하면 공개 점수를 곧바로 사내 로그 정제나 RAG 전처리 성능으로 착각하기 쉬워.

또 하나는 데이터셋 형식이 넓다는 점이야. token classification으로 써도 되고, 원문을 마스킹된 텍스트로 바꾸는 text generation 경로로도 실험할 수 있어. 그래서 synthetic-data 기반 PII 실험을 빠르게 시작하거나, 도메인 데이터가 적을 때 보조 학습셋으로 섞어 보는 출발점이 되기 좋아.

이 공개 모델과의 차이도 여기서 갈려. 그 모델은 이 셋으로 점수를 내는 참가자고, 이 페이지는 그 참가자를 비교하는 시험지 쪽이야. fine-tuning은 이 셋을 이용해 모델을 다시 적응시키는 방법이고, Hugging Face는 그 시험지와 파생 모델이 같이 모이는 배포 장소라고 보면 돼.

주의해서 볼 점

이 benchmark를 개인정보 보호 보증서처럼 읽으면 곤란해. Dataset card 자체가 synthetic data generated using proprietary algorithms라고 적고, known issues로 country, time, title 같은 거친 타입에서 라벨 오류가 날 수 있다고 밝혀. OpenAI도 benchmark annotation issues를 따로 언급하면서 corrected version 점수를 별도로 냈어.

라이선스도 가볍게 넘기면 안 돼. Hugging Face 상단에는 license.md로만 보이고, dataset card 본문은 academic use를 권장하면서 commercial entities는 별도 문의를 하라고 적어 둬. 즉, 공개 benchmark라고 해서 바로 재배포나 상업 학습에 다 같은 조건으로 써도 된다는 뜻은 아니야.

실무에서는 세 가지만 확인하면 된다.

공개 benchmark 점수와 사내 샘플 점수를 따로 재. 공개 점수는 출발점이지 운영 승인이 아니야.
우리 정책에서 중요한 라벨이 dataset class와 안 맞으면 fine-tuning이나 후처리 규칙을 같이 설계해.
언어, 업종, 개인정보 정의가 다르면 사람 검수 경로를 남겨. 특히 금융, 의료, 법무, HR 쪽은 false negative와 over-redaction 둘 다 비용이 커.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-03 KST

검증 생성: AI + 편집 검토 · 2026-05-03 상태: 통과

통과 원문 대조 검증 출처 4

이 항목을 모델 버전이 아니라 공개 데이터셋이자 benchmark로 다시 맞추고, OpenAI 공개본이 여기서 점수를 낸 관계를 분리해 적었어.

독자 문제 대조: 이 이름은 OpenAI가 공개한 모델명이 아니라 Hugging Face의 `ai4privacy/pii-masking-300k` 데이터셋 이름이야.
허브 카드에서는 이 항목을 개인정보 마스킹 학습·평가용 데이터셋으로 설명하고, `source_text`, `target_text`, `privacy_mask`, `span_labels` 같은 필드를 직접 보여 줘.
공식 릴리스 글은 OpenAI 공개본이 이 benchmark에서 F1 96%, 보정 버전에서 F1 97.43%를 기록했다고 적어. 그러니까 이 페이지의 주어는 모델이 아니라 점수를 재는 기준셋이야.
VentureBeat 보도도 OpenAI가 자체 모델을 공개하면서 benchmark 성능을 인용한 맥락으로 다뤄서, 데이터셋과 모델을 같은 항목으로 섞지 않게 해 줘.

통과 교차 검증 검증 출처 4

데이터셋 카드, OpenAI 릴리스 글, 모델 카드, 독립 보도를 나눠 봐서 benchmark 정의와 모델 성능 주장을 한 문장에 뭉개지 않았어.

비교 기준: AI4Privacy 허브 카드는 데이터 구성과 라이선스 문맥을, OpenAI 릴리스 글은 benchmark 점수를, 모델 카드는 공개 모델의 8개 라벨 구조를, VentureBeat는 외부 보도 맥락을 맡게 나눠 봤어.
AI4Privacy 쪽 설명은 27개 PII classes와 금융·보험용 추가 클래스 약 20개를 적지만, OpenAI 공개 모델은 `private_person`, `secret` 같은 8개 span category만 예측한다고 적어. 그래서 benchmark 이름이 같아도 label policy는 그대로 같지 않아.
OpenAI 발표는 dataset annotation issues를 따로 짚고 corrected benchmark 버전 점수도 같이 내. 그래서 숫자를 그대로 절대 기준처럼 읽으면 안 돼.
VentureBeat는 이 모델이 온디바이스 데이터 정제 워크플로에 들어간다고 설명하지만, benchmark 자체가 온디바이스 제품이나 법적 준수 체계를 뜻하는 건 아니라는 선은 유지했어.

통과 수치 검증 검증 출처 4

행 수, split, 토큰 수, 언어 수, 클래스 수, OpenAI가 인용한 F1 수치를 각각 출처에 맞춰 다시 확인했어.

Hugging Face dataset viewer에서 지금 225,405 rows로 떠 있고, split은 train 178k rows와 validation 47.7k rows야.
허브 카드 본문은 OpenPII-220k에 27개 PII classes, 749 discussion subjects, 약 220,000+ examples, 30.4M text tokens, 7.6M PII tokens를 적고 있어.
같은 card는 총 6개 언어와 8개 jurisdiction을 적고, OpenPII-220k와 FinPII-80k 두 하위 셋으로 나뉜다고 설명해.
릴리스 글은 이 benchmark에서 F1 96%와 보정 버전 F1 97.43%, precision 94.04%와 96.79%, recall 98.04%와 98.08%를 제시해.
Hugging Face 페이지의 현재 관심도 메타데이터는 likes 94, downloads last month 2,669, total file size 803 MB로 보이지만, 이런 숫자는 계속 바뀔 수 있어서 확인 날짜를 `2026-05-03`으로 고정해 뒀어.

통과 비판 검토 검증 출처 4

이 benchmark를 개인정보 보호 보증서나 범용 정책 기준처럼 읽지 않게, 데이터 출처와 라벨 한계, 보정 이슈, 상업 이용 조건을 같이 적었어.

허브 카드 본문은 synthetic data generated using proprietary algorithms라고 적고, known issues로 country, time, title 같은 거친 정보 타입의 라벨 오류 가능성을 직접 적어 둬.
OpenAI가 corrected version을 따로 보고했다는 건 원 benchmark annotation을 그대로 절대 기준으로 두기 어렵다는 뜻이야. 그래서 리더보드 숫자만 보고 모델 우열을 단정하면 위험해.
Hugging Face 상단엔 `license.md`만 보이고, card 본문은 academic use와 commercial entities 문의를 따로 적어 둬. 상업 배포 전엔 LICENSE.md와 별도 조건을 다시 확인해야 해.
실무 정책은 조직마다 다르고, Privacy Filter 모델 카드도 label policy가 다르면 fine-tuning이 필요하다고 경고해. 그러니까 이 benchmark 점수 하나로 사내 PII 정책 충족 여부를 바로 판정하면 안 돼.

이 데이터셋은 공개 비교 기준으로는 유용하지만, 실제 개인정보 거버넌스나 법적 준수 판단까지 대신하지는 못해.

출처: ai4privacy/pii-masking-300k — Hugging Face Datasets , OpenAI — Introducing OpenAI Privacy Filter , openai/privacy-filter — Hugging Face , VentureBeat — OpenAI launches Privacy Filter