Anthropic이 Claude를 제품마다 어떻게 가두는지를 엔지니어링 문서로 공개했어. 샌드박싱 제품은 문서가 부실한 경우가 많아서 얼마나 믿어도 되는지 알기 어렵다는 게 Simon Willison의 평소 불만이었는데, 이번 글은 그가 “훌륭하다”고 할 만큼 자세했어.
핵심은 제품 3개에서 격리 강도를 다르게 쓴다는 거야. 웹에서 쓰는 Claude.ai는 gVisor라는 격리 계층을 써. 내 컴퓨터에서 도는 Claude Code는 macOS에선 Seatbelt, 리눅스에선 Bubblewrap으로 프로세스를 가둬. 자율성이 가장 큰 Cowork는 아예 전체 가상머신을 띄워 — macOS는 Apple Virtualization, 윈도우는 HCS를 써. 위험이 클수록 격리도 무겁게 가는 구조야.
원칙도 하나 분명히 했어. 자격증명을 샌드박스 안에 절대 넣지 않는 거야. 키가 격리 환경 안에 있으면 모델이 실수로든 공격으로든 그걸 빼낼 수 있거든. Anthropic은 프로세스 샌드박스, 가상머신, 파일시스템 경계, 외부 통신(egress) 제어 4개를 섞어서 막아. 글에는 과거에 놓쳤던 위험 사례도 솔직하게 들어 있어 — 예를 들면 api.anthropic.com/v1/files를 통한 유출 경로 같은 거.
실무에서 보면 이건 AI 에이전트한테 코드 실행이나 파일 접근을 맡길 때 어느 수준 격리가 필요한지 가르는 기준이 돼. 자체 발표 문서라 실제 견고함은 외부 감사로 따로 봐야 하지만, 격리 설계를 이만큼 공개한 건 드물어. Simon은 이 글을 보고 Anthropic이 오픈소스로 푼 샌드박스 런타임 도구를 다시 들여다볼 만하다고 했어.