한 줄 정의

Mythos Preview는 Anthropic이 일반 공개하지 않은 Claude 계열의 프론티어 모델이야. 새 챗봇 이름이라기보다, agentic coding추론 능력이 보안 취약점 탐지에서 너무 강하게 드러나서 Project Glasswing 안에서만 제한적으로 쓰는 프리뷰로 보면 돼.

그래서 이 이름을 볼 때 첫 질문은 “성능이 얼마나 좋나”보다 “누가 어떤 방어 목적에서 접근할 수 있나”야. Anthropic은 Mythos Preview를 일반 목적의 unreleased frontier model이라고 설명하면서도, 일반 공개 계획은 없다고 선을 그었어.

이 모델로 무엇을 할 수 있나

공개된 사용 장면은 소프트웨어 보안 쪽이야. Anthropic은 이 모델을 아래 같은 방어 작업에 붙인다고 설명해.

  • 소스 코드 스캔: 큰 코드베이스를 읽고 취약한 경로를 추론해.
  • 바이너리 블랙박스 테스트: 소스가 없는 프로그램의 약점이나 악용 가능성을 살펴.
  • 엔드포인트 보안 점검: 운영체제와 브라우저처럼 노출면이 큰 기반 소프트웨어를 확인해.
  • 침투 테스트 보조: 승인된 환경에서 취약점 재현과 triage를 빠르게 해.

Anthropic 레드팀 글은 주요 운영체제와 웹브라우저에서 제로데이 취약점을 찾고, 오래된 OpenBSD 버그와 FreeBSD NFS 원격 코드 실행 취약점까지 다뤘다고 설명해.

실제 사례도 하나 있어. Mozilla 글 기준으로 Firefox 팀은 Claude Mythos Preview 초기 버전을 Firefox에 적용했고, Firefox 150 릴리스에서 이 평가로 찾은 271개 취약점을 고쳤어. 비교 대상으로 나온 이전 협업은 Claude Opus 4.6으로 Firefox 148에서 22개 보안 민감 버그를 고친 사례였으니, 여기서 핵심은 단순 자동 완성보다 코드 이해와 보안 추론을 길게 묶는 능력이야.

왜 중요한가

이 프리뷰가 중요한 이유는 “더 센 코딩 모델”이라는 말만으로는 부족해서야. Anthropic은 launch partners와 추가 40개 넘는 핵심 소프트웨어 조직에 접근을 열고, 최대 1억 달러 사용 크레딧과 400만 달러 오픈소스 보안 기부를 붙였어. 이건 모델 출시라기보다, 방어자에게 먼저 능력을 주고 공격자가 따라오기 전에 패치 시간을 벌려는 배포 전략에 가까워.

평가 숫자도 기사에서 자주 붙어. Anthropic 표에서 마이토스는 SWE-bench Pro 77.8%, Terminal-Bench 2.0 82.0%, SWE-bench Verified 93.9%를 보였어. 다만 이 숫자는 “모든 보안 일을 맡겨도 된다”는 결론이 아니야. 일부 평가는 memorization screen, 내부 구현, 토큰 예산 같은 조건이 붙어 있어서, 실무에서는 내 코드베이스와 공개 책임 절차에서 다시 봐야 해.

비용도 접근권과 같이 읽어야 해. 1억 달러 크레딧은 연구 프리뷰를 상당 기간 덮기 위한 약속이고, 그 뒤 참가자용 rate는 입력 100만 토큰당 25달러와 출력 100만 토큰당 125달러야. 이건 일반 사용자가 Claude 앱에서 바로 고르는 가격표가 아니라, 승인된 참가자가 Claude API, Bedrock, Vertex AI, Microsoft Foundry 같은 채널에서 쓰는 조건이야.

같이 보면 좋은 모델

GPT-5.4-Cyber와 같이 보면 차이가 빨리 보여. 마이토스 쪽은 Anthropic이 일반 공개하지 않은 고위험 프리뷰에 가깝고, GPT-5.4-CyberOpenAITrusted Access for Cyber 안에서 방어 목적 사용자에게 열어 둔 제한 접근 모델이야. 둘 다 “사이버 보안에 AI를 쓴다”는 말 아래 있지만, 실제 판단은 성능보다 접근 심사, 금지 행위, 취약점 공개 절차에서 갈려.

Claude Opus 4.6기준선으로 봐야 해. Mozilla 사례처럼 이전 세대 모델이 찾은 22개 버그와 마이토스의 271개 결과를 비교하면 발전 폭은 커 보이지만, 그 숫자를 그대로 일반 제품 성능으로 옮기면 안 돼. 이 프리뷰는 공개 모델 ID, 가격표, 가중치, 로컬 실행 경로가 없는 모델이라서, 도입 검토보다는 보안팀의 red-teaming과 책임 있는 취약점 공개 체계를 다시 설계하게 만드는 신호로 읽는 편이 맞아.