이 용어는 어디까지 신뢰할 수 있나요?

DeepSeek Sparse Attention, 줄여서 DSA는 DeepSeek가 DeepSeek V3.2부터 넣은 희소 어텐션 기법이야. 문맥 전체를 빽빽하게 다 보는 대신 먼저 빠른 인덱서로 후보 토큰을 고르고, 그다음 top-k key-value만 실제 어텐션 계산에 넣어서 긴 문맥 비용을 낮추는 방식이야.

어떻게 작동하나

기술 보고서는 DSA를 두 단계로 설명해. 먼저 lightning indexer, 즉 빠른 1차 인덱서가 현재 query 토큰과 이전 토큰들 사이의 점수를 계산해. 그다음 fine-grained token selection, 즉 세밀한 토큰 선택 단계가 그 점수 상위권에 들어간 top-k key-value만 골라서 실제 어텐션을 돌려. 즉, 모든 토큰 쌍을 끝까지 다 보는 dense attention이 아니라, 먼저 후보를 추리고 나중에 자세히 보는 2단 구조야. 예를 들어 128K급 긴 문서에서 답과 직접 관계없는 구간을 1차로 많이 걷어내고, 관련 가능성이 높은 토큰 쪽에 실제 어텐션 계산을 더 쓰는 방식에 가까워.

같은 보고서는 DeepSeek-V3.1-Terminus에서 계속 학습으로 넘어오면서 DSA를 넣은 게 V3.2의 유일한 아키텍처 변경이라고 적어. 계속 사전학습 단계의 출발점도 128K 컨텍스트로 확장된 체크포인트였고, 구현은 DeepSeek가 쓰던 잠재 어텐션 경로 위에서 여러 쿼리 헤드가 key-value를 함께 쓰는 방식으로 얹었다고 설명해. 여기서 중요한 건 DSA가 실험용 별도 모듈이 아니라 V3.2 본체에 들어간 실제 서빙 구조라는 점이야.

왜 중요한가

DeepSeek는 V3.2 릴리스에서 DSA를 세 가지 핵심 돌파구 중 하나로 올려. 다른 두 축은 강화학습 후학습과 대규모 에이전트 데이터 합성이야. 출시 공지와 기술 보고서는 1,800개 이상 환경, 85,000개 이상 복잡한 지시로 agent training synthesis를 만들었다고 적는데, 이런 후학습을 긴 문맥에서 계속 밀어붙이려면 기본 어텐션 비용부터 낮춰야 한다는 설명이 붙어 있어.

그래서 DSA가 중요하다는 말은 단순히 “새 어텐션 아이디어가 나왔다”는 뜻이 아니야. Transformer 안에서 가장 비싼 계산 구간을 덜 무겁게 만들어서, 긴 입력 처리와 도구 사용이 섞인 V3.2 계열의 훈련과 배포를 버티게 한 내부 구조라는 뜻에 더 가까워. 기사나 모델 카드에서 DSA가 보이면, DeepSeek가 긴 문맥 비용을 설계 차원에서 줄이려 했다는 뜻으로 읽으면 돼.

주의해서 볼 점

DSA는 별도 모델명도 아니고 직접 호출하는 API 이름도 아니야. 2025-12-01 변경 로그 기준으로 당시 API 사용자는 deepseek-chat이나 deepseek-reasoner를 썼지, DSA를 직접 model 파라미터에 넣는 구조가 아니었어. 지금도 DSA는 DeepSeek V3.2나 DeepSeek-V3.2-Speciale 같은 모델 안에 들어간 내부 메커니즘으로 보는 게 정확해.

또 DSA를 Mixture of Experts와 같은 말처럼 쓰면 안 돼. DSA는 어떤 토큰을 볼지 줄이는 희소 어텐션이고, MoE는 어떤 전문가 경로를 켤지 고르는 구조야. 두 기술 모두 비용과 성능 균형을 건드리지만 건드리는 위치가 달라. 공개 자료도 DSA의 top-k 값이나 “몇 배 빨라진다” 같은 공통 숫자를 주지 않으니, 특정 제품의 실제 지연 시간이나 요금표는 해당 모델 페이지에서 따로 확인해야 해.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-03 KST

검증 생성: AI + 편집 검토 · 2026-05-03 상태: 통과

통과 원문 대조

DSA를 별도 모델이 아니라 V3.2 계열 내부의 희소 어텐션 구조로 설명했는지 공식 공지와 기술 보고서에 맞춰 다시 봤어.

독자 문제 대조: DSA를 API 모델명이나 제품명이 아니라 DeepSeek V3.2 안에 들어간 내부 어텐션 기법으로 첫 문장에서 바로 잡았어.
V3.2 출시 공지는 DSA를 V3.2의 핵심 기술 중 하나로 소개하고, 긴 문맥에서 계산 복잡도를 낮추는 efficient attention mechanism이라고 적어.
기술 보고서 2.1절은 V3.2의 유일한 아키텍처 변경이 DSA 도입이라고 설명하고, lightning indexer와 fine-grained token selection의 두 구성요소를 직접 적어.
Speciale 모델 카드는 같은 DSA 설명을 반복해서, DSA가 V3.2 계열의 핵심 구조라는 점을 다시 확인해.

통과 교차 검증 검증 출처 2

독립 2차 출처 두 곳이 DSA를 같은 2단 희소 어텐션 구조로 설명하는지 실제로 대조했어.

비교 기준: TechCrunch와 Red Hat Developer가 DSA를 모두 lightning indexer와 fine-grained token selection으로 이뤄진 2단 구조로 설명하는지 봤어.
두 출처 모두 DSA를 긴 문맥에서 비용을 낮추는 희소 어텐션으로 소개하고, 문맥 전체를 먼저 훑고 실제 어텐션 창에는 더 적은 토큰만 넣는다는 해석을 공유해.
다만 비용 절감 숫자는 DeepSeek 초기 주장에 기대고 있으므로, 본문에는 몇 퍼센트 절감처럼 고정 수치를 쓰지 않았어.

독립 2차 출처는 메커니즘 설명의 방향을 확인하는 용도로만 썼고, 세부 구조와 숫자 고정은 계속 1차 자료에 맞췄어.
제3자 실측 벤치마크가 충분히 쌓인 상태는 아니라서, 범용 속도 향상 수치 같은 확장 해석은 뺐어.

통과 수치 검증

본문에 남길 숫자와 남기지 말아야 할 숫자를 나눠서 다시 확인했어.

DSA가 공개된 기준 시점은 V3.2 출시 공지와 변경 로그가 공통으로 가리키는 2025-12-01이야.
기술 보고서는 DSA continued pre-training의 출발점을 128K 컨텍스트로 확장된 DeepSeek-V3.1-Terminus 체크포인트라고 적어.
출시 공지와 기술 보고서는 V3.2 계열의 agent training synthesis를 1,800개 이상 환경과 85,000개 이상 복잡한 지시로 설명해. 본문에서는 이 숫자를 DSA 자체 성능 수치가 아니라 같은 릴리스의 맥락 숫자로만 썼어.

공개 자료에는 DSA의 top-k 값, 고정 속도 향상률, 토큰당 비용 절감률이 보편 수치로 제시되지 않아서 본문에 확정값처럼 넣지 않았어.

통과 비판 검토

DSA를 과장하거나 다른 구조와 섞어 읽기 쉬운 지점을 따로 막았어.

DSA는 별도 호출 이름이 아니라 내부 어텐션 메커니즘이야. `deepseek-chat`처럼 직접 지정하는 API 모델명으로 읽히지 않게 정리했어.
DSA는 토큰 후보를 줄이는 희소 어텐션이고, [Mixture of Experts](/ko/wiki/mixture-of-experts/)는 전문가 경로를 고르는 구조라서 둘을 같은 효율화 기법처럼 뭉개지 않게 구분했어.
DeepSeek 문서가 'substantially reduces computational complexity'라고 설명해도, 공개 자료에 공통 속도 향상 수치가 없으니 몇 배 빨라진다고 단정하지 않았어.

긴 문맥에서 싸진다고 해서 모든 제품의 context length, API 가격, tool-use 성능이 자동으로 결정되는 건 아니야.
DSA는 V3.2 계열의 핵심 구조지만, reasoning 성능 향상 전체를 혼자 만든 기술처럼 쓰면 과장이 돼.

출처: DeepSeek API Docs - DeepSeek-V3.2 Release , DeepSeek API Docs - Change Log , Hugging Face Speciale model card , DeepSeek-V3.2 Technical Report , TechCrunch - DeepSeek releases sparse attention model that cuts API costs in half , Red Hat Developer - DeepSeek-V3.2-Exp on vLLM, Day 0

DeepSeek Sparse Attention (딥시크 스파스 어텐션)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

관련 용어

이 항목을 참조하는 위키