한 줄 정의

F1 97.43은 일반 F1 성능 지표 설명이 아니라 Privacy FilterPII-Masking-300k에서 공개된 단일 벤치마크 결과를 가리켜.
Privacy Filter는 개인정보 보호 마스킹을 수행하고, 이 점수는 그 실험군에서만 쓰는 보정 조건으로 읽어야 해.
precision 96.79%, recall 98.08%를 넣으면 F1이 97.43이 돼.

어떻게 작동하나

precisionrecall은 민감정보 탐지에서 각각 오탐과 미탐을 다르게 다루는 값이야.
F1은 이 둘의 조화평균으로 계산해, 한쪽만 높아져도 점수가 쉽게 흔들리지 않게 해.

precision = 96.79%, recall = 98.08%라면
F1 = 2 × precision × recall / (precision + recall)로 계산하면 97.43%가 돼.
그래서 F1 97.43은 “보정 후 계산값”이라는 정제 규칙 설명을 붙여서 봐야 해.

왜 중요한가

개인정보 누락(미탐) 위험은 규제·보안 측면에서 치명적인 비용이 될 수 돼.
반대로 과잉 마스킹(오탐)도 업무 흐름을 끊을 수 있어서, 두 값의 균형을 같이 봐야 해.
그래서 F1 97.43은 단일 성능 지표보다 점수 산정 기준까지 같이 고정할 때 실무에서 쓰임이 커져.

적용 맥락

F1 97.43을 다룰 때는 같은 항목 내에서 같은 비교 기준을 유지해야 해.

  • benchmark를 기준으로 같은 항목을 계속 비교해야, 데이터 라벨 규칙 변경에 따른 F1 변동을 덜 오독할 수 있어.
  • eval 단계에서는 오탐·미탐 임계치 정책을 함께 기록해야 해.
  • dataset 라벨 변경은 같은 스코어도 다르게 보이게 하므로 버전 메모가 필수예요.
  • f1-96은 초기 공개 수치군을 비교할 때 쓰기 좋고, precision/recall은 같은 축에서 함께 보여야 일관된 결론이 나와.