한 줄 정의

DeepSeek Sparse Attention, 줄여서 DSA는 DeepSeekDeepSeek V3.2부터 넣은 희소 어텐션 기법이야. 문맥 전체를 빽빽하게 다 보는 대신 먼저 빠른 인덱서로 후보 토큰을 고르고, 그다음 top-k key-value만 실제 어텐션 계산에 넣어서 긴 문맥 비용을 낮추는 방식이야.

어떻게 작동하나

기술 보고서는 DSA를 두 단계로 설명해. 먼저 lightning indexer, 즉 빠른 1차 인덱서가 현재 query 토큰과 이전 토큰들 사이의 점수를 계산해. 그다음 fine-grained token selection, 즉 세밀한 토큰 선택 단계가 그 점수 상위권에 들어간 top-k key-value만 골라서 실제 어텐션을 돌려. 즉, 모든 토큰 쌍을 끝까지 다 보는 dense attention이 아니라, 먼저 후보를 추리고 나중에 자세히 보는 2단 구조야. 예를 들어 128K급 긴 문서에서 답과 직접 관계없는 구간을 1차로 많이 걷어내고, 관련 가능성이 높은 토큰 쪽에 실제 어텐션 계산을 더 쓰는 방식에 가까워.

같은 보고서는 DeepSeek-V3.1-Terminus에서 계속 학습으로 넘어오면서 DSA를 넣은 게 V3.2의 유일한 아키텍처 변경이라고 적어. 계속 사전학습 단계의 출발점도 128K 컨텍스트로 확장된 체크포인트였고, 구현은 DeepSeek가 쓰던 잠재 어텐션 경로 위에서 여러 쿼리 헤드가 key-value를 함께 쓰는 방식으로 얹었다고 설명해. 여기서 중요한 건 DSA가 실험용 별도 모듈이 아니라 V3.2 본체에 들어간 실제 서빙 구조라는 점이야.

왜 중요한가

DeepSeek는 V3.2 릴리스에서 DSA를 세 가지 핵심 돌파구 중 하나로 올려. 다른 두 축은 강화학습 후학습과 대규모 에이전트 데이터 합성이야. 출시 공지와 기술 보고서는 1,800개 이상 환경, 85,000개 이상 복잡한 지시로 agent training synthesis를 만들었다고 적는데, 이런 후학습을 긴 문맥에서 계속 밀어붙이려면 기본 어텐션 비용부터 낮춰야 한다는 설명이 붙어 있어.

그래서 DSA가 중요하다는 말은 단순히 “새 어텐션 아이디어가 나왔다”는 뜻이 아니야. Transformer 안에서 가장 비싼 계산 구간을 덜 무겁게 만들어서, 긴 입력 처리와 도구 사용이 섞인 V3.2 계열의 훈련과 배포를 버티게 한 내부 구조라는 뜻에 더 가까워. 기사나 모델 카드에서 DSA가 보이면, DeepSeek가 긴 문맥 비용을 설계 차원에서 줄이려 했다는 뜻으로 읽으면 돼.

주의해서 볼 점

DSA는 별도 모델명도 아니고 직접 호출하는 API 이름도 아니야. 2025-12-01 변경 로그 기준으로 당시 API 사용자는 deepseek-chat이나 deepseek-reasoner를 썼지, DSA를 직접 model 파라미터에 넣는 구조가 아니었어. 지금도 DSA는 DeepSeek V3.2DeepSeek-V3.2-Speciale 같은 모델 안에 들어간 내부 메커니즘으로 보는 게 정확해.

또 DSA를 Mixture of Experts와 같은 말처럼 쓰면 안 돼. DSA는 어떤 토큰을 볼지 줄이는 희소 어텐션이고, MoE는 어떤 전문가 경로를 켤지 고르는 구조야. 두 기술 모두 비용과 성능 균형을 건드리지만 건드리는 위치가 달라. 공개 자료도 DSA의 top-k 값이나 “몇 배 빨라진다” 같은 공통 숫자를 주지 않으니, 특정 제품의 실제 지연 시간이나 요금표는 해당 모델 페이지에서 따로 확인해야 해.