한 줄 정의
F1 96은 보통 Privacy Filter 소개에서 F1 96%를 짧게 앞으로 꺼내 적는 표기야.
새 모델 이름이나 새 benchmark 이름으로 읽기보다, 공개 eval 결과를 헤드라인용으로 압축한 숫자라고 보면 맞아.
여기서 F1은 precision과 recall을 한 줄로 묶어 보여 주는 점수야.
OpenAI 공개 글은 이 숫자를 precision 94.04%, recall 98.04%와 함께 적어 두고 있어서, F1 96만 따로 떼어 읽으면 반만 본 셈이야.
예를 들어 기사 제목이 Privacy Filter hits F1 96처럼 나오면, “개인정보 마스킹 공개 시험지에서 96점을 받았다”라고 읽으면 돼. “F1 96이라는 새 기술이나 새 모델이 나왔다”라고 읽으면 틀려.
어떻게 작동하나
이 표기는 긴 설명 한 줄을 짧게 접는 방식으로 생겨.
원래 문장은 “Privacy Filter가 PII-Masking-300k에서 F1 96%를 기록했다”에 가까운데, 기사나 모델 카드 헤드라인에서는 모델명과 시험지 이름을 접고 숫자만 앞으로 꺼내 F1 96처럼 쓰는 거야.
그러니까 F1 96의 정체는 모델명보다 결과 문장이야.
같은 공개 글은 여기서 한 번 더 중요한 단서를 붙여.
데이터셋의 주석 오류(annotation issue)를 보정한 버전에서는 F1 97.43%, precision 96.79%, recall 98.08%라고 따로 적어.
즉 F1 96은 최종 결론 한 줄이라기보다, 원본 benchmark 기준 headline에 더 가까워.
또 하나는 fine-tuning과 도메인 적응(domain adaptation) 이야기야.
OpenAI는 별도 도메인 적응 평가에서 F1이 54%에서 96%로 오른다고 설명해.
이 숫자는 공개 headline과 다른 문맥이라서, F1 96을 보면 먼저 “어느 시험지 숫자인가”와 “도메인 적응 전후인가”를 나눠 보는 편이 맞아.
왜 중요한가
이 표기를 알아두면 기사에서 숫자가 과장돼 보일 때 자리를 바로 잡을 수 있어.
F1 96은 개인정보 마스킹 모델이 꽤 강한 공개 성능을 냈다는 신호지만, 그 자체로 개인정보 보호 체계 전체가 완성됐다는 뜻은 아니야.
어느 benchmark에서 나온 점수인지, 무엇을 개인정보로 칠지 정한 기준(label policy)이 같은지, 한국어나 사내 로그처럼 실제 데이터 분포가 비슷한지를 따로 확인해야 해.
precision과 recall을 같이 읽는 데도 도움이 돼. 이 케이스는 recall 98.04%가 꽤 높아서 놓치는 span을 줄이는 쪽 신호가 강하지만, precision 94.04%이므로 과하게 가리는 경우를 따로 볼 필요가 있어. 실무에서는 원문 누락이 더 위험한지, 민감한 텍스트 조각(span)을 과하게 가리는 쪽이 더 위험한지에 따라 같은 F1이라도 해석이 달라질 수 있어.
실제로 기사나 발표문을 읽거나 도입 전에 숫자를 검토할 때는 세 가지만 먼저 보면 돼.
- 이 숫자가 같은 공개 시험지 기준인지 본다.
- precision과 recall이 같이 공개됐는지 확인한다.
- corrected score나 도메인 적응 점수처럼 별도 줄이 섞여 있는지 분리해서 본다.
주의해서 볼 점
가장 흔한 오해는 F1 96을 독립 기술명처럼 읽는 거야.
이건 BF16이나 A4B 같은 구조·정밀도 표기가 아니고, Privacy Filter가 그 공개 셋에서 낸 결과를 짧게 적은 숫자야.
또 F1 하나만 보면 균형이 숨는다. precision 94.04%, recall 98.04%라는 짝을 같이 봐야, 놓침을 줄이기 위해 어느 정도 과잉 마스킹을 감수했는지 감을 잡을 수 있어. 게다가 OpenAI가 corrected benchmark 점수를 97.43%로 따로 적은 걸 보면, 데이터셋 주석 상태까지 숫자 해석에 직접 영향을 준다는 뜻이야.
마지막으로, 공개 headline을 운영 기준으로 바로 옮기면 위험해.
의료, 법무, 금융, HR처럼 민감한 문서에서는 F1 96보다 실제로 놓친 민감한 조각 사례, 과하게 가린 사례(over-redaction), 언어 분포, 기준 차이를 따로 eval하는 편이 더 중요해.