한 줄 정의

Red Teaming은 시스템을 잘 보이게 만드는 테스트가 아니라, 실제 공격자처럼 흔들어 보면서 어디서 무너지는지 찾는 방식이야. 사이버보안에서 출발한 말이지만, 지금은 AI 모델의 유해 응답, 우회 가능성, 정책 붕괴를 찾는 안전 테스트로도 넓게 쓰여.

어떻게 작동하나

보통은 악성 프롬프트, 정책 우회 문장, 사회공학형 질문, 다단계 유도 같은 시나리오를 먼저 만들고 시스템에 반복해서 넣어 봐. 그 과정에서 어떤 입력이 방어를 뚫는지 기록하고, 프롬프트 정책이나 필터, 모델 설정을 고친 뒤 같은 유형으로 다시 테스트하면서 막히는지 확인해.

왜 중요한가

평균 점수만 보면 멀쩡한 시스템도 특정 입력 하나에서 크게 무너질 수 있어서, 최악의 실패를 먼저 보는 절차가 꼭 필요해. 제품 출시 전 안전 점검, 고위험 기능 검토, 내부 정책 검증 같은 단계에서 Red Teaming이 따로 불리는 이유가 바로 그거야.

주의해서 볼 점

Red Teaming은 일반 eval이나 체크리스트 테스트와 같지 않아. 공격 시나리오를 얼마나 현실적으로 만들었는지, 법적 범위와 실험 기록을 어떻게 남겼는지까지 포함해야 의미가 생기고, 단발성 이벤트로 끝내면 금방 구멍이 다시 생겨.

관련 용어

  • Eval: 평균 성능이나 과제 정답률을 재는 쪽에 더 가까워. Red Teaming은 실패와 우회 경로를 찾는 쪽이라 목적이 달라.
  • Alignment: 모델이 어떤 방향으로 행동해야 하는지 목표를 다뤄. Red Teaming은 그 목표가 실제 입력에서 깨지는지 시험해.
  • Hallucination: 대표적인 실패 유형 하나야. Red Teaming은 그런 실패가 언제, 어떤 입력에서 터지는지 체계적으로 드러내는 과정이야.
  • Guardrail: 방어 장치 자체를 가리켜. Red Teaming은 그 장치가 실제 공격 입력 앞에서 버티는지 확인하는 테스트야.