한 줄 정의

DeepSeek V3.2는 공식 출시 공지 기준으로 2025년 12월 1일 공개된 오픈 웨이트 추론 모델 버전이야. 685B급 모델 웨이트MIT 라이선스로 공개했고, 긴 문맥에서 계산량을 줄이는 희소 어텐션인 DSA(DeepSeek Sparse Attention)와 에이전트 후학습을 같이 적용했어. 이 이름이 기사에 나오면 그냥 V3의 마이너 업데이트라기보다, V4 바로 전 세대에서 기준선처럼 많이 불리던 버전을 가리키는 경우가 많아.

이 모델로 무엇을 할 수 있나

실무에서는 추론도구 사용이 함께 필요한 작업에 적용해볼 수 있어. 예를 들어 도구 호출(tool call)은 모델이 검색 함수, 코드 실행기, 사내 API 같은 외부 기능을 호출해 달라고 구조화된 요청을 내는 동작이야.

  • 검색 에이전트: 먼저 답을 추론하고, 필요한 검색 도구를 호출한 뒤, 도구 결과를 다시 읽어 답을 정리하는 흐름에 맞아.
  • 코드 수정: 파일을 읽고, 수정 위치를 판단하고, 실행 결과를 확인하는 긴 절차를 한 번의 대화 흐름으로 이어갈 때 쓸 수 있어.
  • 긴 문서 질의응답: 기술 보고서는 128K 장문 학습 흐름을 설명해. 긴 문서를 넣을 수 있다는 뜻이지, 항상 전체 문서를 넣는 게 비용상 좋다는 뜻은 아니야.
  • 로컬 서빙 실험: 공식 Hugging Face 모델 카드웨이트와 예제를 바탕으로 SGLang, vLLM 같은 모델 추론 서버에서 테스트할 수 있어. 여기서 추론reasoning 답변 전략이 아니라 웨이트를 서빙해 토큰을 생성하는 실행 단계를 뜻해.

출시 공지에 따르면 에이전트 학습 데이터는 1,800개가 넘는 환경과 85k가 넘는 복잡한 지시로 만들었어. 로컬 권장 샘플링 값은 temperature=1.0, 에이전트야.

왜 중요한가

V3.2가 중요한 이유는 오픈 웨이트 모델에서 추론 점수, 도구 사용, 에이전트 평가를 한 묶음으로 개선하려는 시도를 전면에 둔 세대라서야. DeepSeek는 V3.2를 “도구 사용 안에 추론을 넣은 첫 모델”이라고 설명하지만, 이건 DeepSeek 자기 모델 계열 안에서 읽는 게 안전해.

또 하나는 비교 기준이야. 기술 보고서는 V3.2-SpecialeGemini 3.0 Pro와 비교하고, V4 공지는 V3.2 이후의 토큰 효율과 긴 문맥 비용을 다시 강조해. 여기서 키-값 캐시(KV cache)는 이전 토큰어텐션 계산 결과를 저장해 다음 토큰 계산을 줄이는 메모리 영역이야. V3.2는 이런 장문 비용 논의를 V4와 비교할 때 자주 불려 나오는 기준선으로 보면 돼.

주의해서 볼 점

  • API 이름: 2025년 12월 1일에는 deepseek-chatdeepseek-reasoner가 V3.2의 비추론/추론 모드를 가리켰어. 하지만 2026년 4월 24일부터는 두 이름이 V4-Flash의 비추론/추론 모드로 연결돼.
  • 가격표: 2026년 4월 30일 현재 공식 가격표는 V4-FlashV4-Pro 기준이야. V3.2 출시 당시 단가를 지금 비용 계산에 그대로 쓰면 안 돼.
  • GPU 전제: 685B급 오픈 웨이트라서 내려받아 볼 수는 있지만, 실제 서빙은 여러 GPU와 큰 메모리를 전제로 잡아야 해.
  • 입출력 범위: 공식 문서는 텍스트 생성, JSON 출력, 도구 호출, 빈칸 채우기(FIM)를 설명해. 이미지나 오디오를 직접 처리하는 멀티모달 모델로 기대하면 안 맞아.

같이 보면 좋은 모델

  • DeepSeek-V3.2-Speciale: 같은 계열이지만 용도가 달라. 추론을 더 밀어붙인 변형이고 도구 호출이 막혀 있어서, 에이전트 작업 기준선으로는 기본 V3.2를 따로 확인해야 해.
  • DeepSeek V4: V3.2 이후 DeepSeek가 무엇을 고쳤는지 비교하기 좋아. 특히 토큰 효율, 키-값 캐시, 긴 문맥 메모리 비용을 볼 때 차이가 드러나.
  • Gemini 3.0 Pro: DeepSeek가 기술 보고서와 공지에서 추론 비교선으로 직접 세운 모델이야. V3.2 성능 설명을 어느 정도로 받아들일지 판단할 때 기준점이 된다.