한 줄 정의

DeepSeek-V3.2 기술 보고서는 DeepSeek가 DeepSeek V3.2의 구조, 학습, 벤치마크, 에이전트 사용 조건을 설명한 공식 기술 문서야. 새 모델명이 아니라 V3.2를 어떻게 만들고 어디까지 검증했다고 주장하는지 정리한 문서로 보면 돼.

이 보고서에서 먼저 잡을 축은 세 가지야.

1,800개 이상 환경과 85,000개 이상 복잡한 지시라는 숫자는 모델 성능표보다 먼저 봐야 하는 훈련 맥락이야.

실제로 무엇을 하나

보고서 기준 V3.2는 텍스트 추론, 코드 에이전트, 검색 에이전트, 도구 사용 작업을 한 모델 안에서 같이 다루려는 버전이야. Chat Completions 형식으로 도구 호출을 평가했고, thinking mode에서 도구를 쓰는 새 템플릿도 설명해. 반면 DeepSeek-V3.2-Speciale는 깊은 추론용 변형이라 출시 공지에서 도구 호출을 지원하지 않는다고 못박았어.

DeepSeek API를 붙이는 팀은 보고서만 보지 말고 deepseek-chatdeepseek-reasoner 별칭을 같이 확인해야 해. 2025-12-01에는 두 별칭이 V3.2의 비추론·추론 모드였지만, 2026-04-24 이후에는 같은 이름이 V4-Flash 쪽으로 연결된다고 변경 기록이 적어.

실무에서는 두 장면에 쓰임새가 있어. 첫째, 긴 문서나 검색 결과가 들어가는 작업에서 DSA가 실제 비용을 얼마나 낮출지 살펴볼 때야. 보고서는 core attention 복잡도를 O(L^2)에서 O(Lk)로 낮춘다고 설명하고, H800 GPU 시간당 2달러 기준으로 긴 문맥 비용 그래프를 제시해. 다만 이건 보고서의 측정 조건이지, 지금 API 가격표를 대신하지 않아.

둘째, 모델 평가표를 다시 짤 때야. 보고서는 AIME 2025 93.1, SWE Verified 73.1, Terminal Bench 2.0 46.4, Tool-Decathlon 35.2 같은 V3.2 점수를 한 표에 묶어. 그런데 MCP 계열 평가는 내부 환경을 썼고, 검색 에이전트는 128K 문맥이 꽉 차는 문제를 context management로 우회했어. 그래서 점수만 옮기기보다 샘플링, 출력 토큰 수, 도구 환경, 재시도 전략을 같이 적어야 비교가 맞아.

왜 중요한가

이 보고서가 중요한 이유는 V3.2를 단순한 벤치마크 모델이 아니라 긴 문맥에이전트 운영을 같이 노린 모델로 보여주기 때문이야. DSA 학습만 봐도 준비 단계는 1,000스텝과 2.1B 토큰, sparse training 단계는 15,000스텝과 943.7B 토큰으로 적혀 있어. 보고서가 말하는 효율은 작은 최적화가 아니라 모델 구조와 학습 경로를 같이 바꾼 결과라는 뜻이야.

또 하나는 토큰 효율이야. 보고서는 V3.2-Speciale가 여러 추론 벤치마크에서 높은 점수를 냈다고 주장하지만, Gemini-3.0-Pro보다 토큰 효율이 떨어진다고도 직접 적어. 예를 들어 표 3에서 Speciale는 AIME 2025 96.0에 23K 출력 토큰, CodeForces rating 2701에 77K 출력 토큰을 썼어. 점수가 좋아 보여도 지연 시간과 비용을 같이 계산해야 하는 이유가 여기에 있어.

현재 API 운영을 볼 때도 이 보고서만으로 끝내면 안 돼. 2025-12-01 변경 기록에서는 deepseek-chatdeepseek-reasoner가 V3.2로 올라갔지만, 2026-04-24 이후 같은 두 이름은 DeepSeek V4 Flash의 비추론·추론 모드로 연결돼. 이 보고서는 V3.2의 설계 근거이고, 지금 호출할 모델명은 API 문서에서 다시 확인해야 해.

주의해서 볼 점

보고서의 비교표는 공식 벤더 자료야. GPT-5, Claude, Gemini, Kimi, MiniMax와 나란히 놓은 숫자는 유용하지만, 독립 재현 결과처럼 읽으면 곤란해. 특히 MCP-Universe와 MCP-Mark는 검색·Playwright 환경이 공식 환경과 조금 다를 수 있어서 DeepSeek 내부 환경으로 평가했다고 보고서가 밝히고 있어.

Reddit의 LocalLLaMA 글 두 개도 같은 선에서 보면 돼. 한 글은 V3.2 보고서의 토큰 효율 문장을 인용하며 후속 V4 Pro의 긴 출력 우려를 말하고, 다른 글은 V4 아키텍처 추정을 놓고 토론해. 커뮤니티가 어떤 지점을 의심하는지는 보여주지만, V3.2 보고서의 구조·성능·API 조건을 검증하는 1차 근거는 아니야.

같이 보면 좋은 모델