EU AI Act가 통과되고, 미국 행정명령이 안전 요건을 강화하면서 AI 기업들에게 “우리 모델은 안전하다”는 걸 입증해야 하는 압박이 커지고 있어. 근데 이 arxiv 포지션 논문이 불편한 진실을 지적해. 지금 쓰는 안전성 검증 방법으론 규제가 요구하는 수준의 보장을 만들어낼 수가 없다는 거거든.

현재 AI 안전성을 입증하는 방식은 ‘행동 테스트(behavioural assurance)‘야. 레드팀이 나쁜 짓을 유도해보고, 벤치마크로 점수를 매기고, 특정 시나리오에서 어떻게 반응하나 봐. 그런데 논문이 지적하는 문제는 이거야 — 유한한 테스트 케이스로는 무한한 실제 상황에서의 행동을 보장할 수 없다는 거. 테스트를 1만 개 통과했다고 해서 1만 1번째 상황에서 안전하다는 논리적 증명이 안 된다는 얘기야.

이게 실무적으로 왜 중요하냐면, 규제 기관은 점점 더 높은 수준의 “안전 보장”을 요구하고 있는데 기술적으로 그걸 달성할 방법 자체가 아직 없거든. 행동 테스트 결과를 보고서로 제출하는 건 가능해도, 그 보고서가 “이 모델은 위험한 행동을 하지 않는다”를 증명하는 건 아닌 거야. AI 기업과 규제 기관 사이에 서로 다른 언어로 대화하고 있는 상황이야.

논문은 이 격차를 메우려면 formal verification(형식 검증)이나 interpretability 연구처럼 행동 이외의 내부 구조를 들여다보는 방법이 필요하다고 암시해. 아직 이 분야가 미성숙한 시점에서, 거버넌스가 기술보다 앞서 달리고 있다는 경고야. AI 정책이나 안전성 연구에 관심 있다면 지금 이 논문이 가리키는 방향이 앞으로 2-3년 규제 논의의 핵심이 될 거야.