이 용어는 어디까지 신뢰할 수 있나요?

공식 V4 Preview 공지는 Pro를 전체 1.6T, 토큰당 활성 49B parameters로, Flash를 전체 284B, 활성 13B parameters로 나눠 적어. 그래서 기사나 커뮤니티 글에서 “V4 Pro”만 보이면 먼저 “DeepSeek-V4-Pro 모델 이야기인가, V4 계열 전체 이야기인가”부터 가르는 게 좋아.

이 모델로 무엇을 할 수 있나

V4 Pro는 긴 문맥을 많이 쓰는 에이전트 작업에 먼저 붙는 모델이야. 코딩 에이전트가 이슈, 로그, 파일 diff, 테스트 결과를 한 컨텍스트 안에 오래 들고 가거나, 긴 리서치·문서 분석 작업에서 검색 결과와 중간 reasoning을 같이 유지할 때 1M context가 의미 있어.

API에서는 deepseek-v4-pro를 model 값으로 넣고 OpenAI ChatCompletions 형식이나 Anthropic 형식으로 호출해. 가격표 기준으로 JSON output, tool calls, Chat Prefix Completion을 지원하고, FIM Completion은 non-thinking mode에서만 지원돼.

로컬이나 자체 서빙에서는 이야기가 달라. Hugging Face 모델 카드는 vLLM과 SGLang 실행 예시를 보여 주지만, 1.6T급 MoE 가중치와 1M context를 안정적으로 굴리는 건 GPU 메모리, KV cache, 병렬화, 서빙 엔진을 따로 맞추는 문제야. 오픈 웨이트가 있다는 말과 노트북에서 편하게 돈다는 말은 달라.

왜 중요한가

Pro와 Flash의 차이는 “좋은 모델 / 나쁜 모델”보다 운영 축으로 보는 게 나아. V4-Pro는 전체 1.6T에 토큰당 49B를 켜는 쪽이라서 복잡한 추론, 코딩, 긴 tool-use 흐름처럼 실패 비용이 큰 작업에 더 먼저 후보가 돼. V4-Flash는 전체 284B에 활성 13B라서 대량 요약, 고객지원 초안, routing, 짧은 agent task처럼 요청 수와 가격이 먼저 보이는 작업에서 비교하기 쉬워.

구조 쪽에서는 V4가 V3.2의 단순 확대판은 아니야. 공식 모델 카드는 hybrid attention을 CSA와 HCA의 조합으로 설명하고, Transformers 문서는 V3의 MLA를 local + long-range 설계로 바꾸고 residual connection을 mHC로 바꿨다고 풀어 써. 모델 카드 기준으로 1M context에서 V4-Pro는 V3.2 대비 single-token inference FLOPs 27%, KV cache 10%를 요구한다고 적어.

다만 이 숫자를 “항상 10배 싸다”로 읽으면 안 돼. 1M까지 길게 갔을 때의 attention과 KV cache 부담을 줄였다는 말이지, 짧은 질의나 실제 제품 latency가 자동으로 같은 비율로 줄어든다는 말은 아니야.

숫자와 API 조건

2026-05-07 확인 기준으로 V4 Pro는 2026-05-31 15:59 UTC까지 75% 할인 가격이 붙어 있어. 가격표는 cache hit input $0.003625/1M token, cache miss input $0.435/1M token, output $0.87/1M token을 보여 줘. 할인 전 표기 가격은 각각 $0.0145, $1.74, $3.48이야.

두 V4 API 모델은 모두 1M context와 최대 384K output을 지원해. 그런데 긴 output은 비용과 latency를 같이 밀어 올려. 특히 thinking mode에서 reasoning 토큰이 길어지면, 벤치마크 점수보다 실제 청구 토큰과 응답 시간이 먼저 문제가 될 수 있어.

벤치마크는 참고 숫자로만 써야 해. Hugging Face 모델 카드는 DS-V4-Pro Max에 대해 LiveCodeBench 93.5, Codeforces 3206, GPQA Diamond 90.1, SWE Verified 80.6, Terminal Bench 2.0 67.9를 제시해. 이건 벤더가 공개한 평가표라서, 사내 코드베이스나 실제 agent workflow에 붙일 때는 같은 prompt set으로 다시 재야 해.

주의해서 볼 점

V4 Pro 주변에서 가장 자주 나오는 논쟁은 token efficiency야. DeepSeek-V3.2 기술 보고서는 V3.2가 Gemini-3.0-Pro 수준의 출력 품질을 맞추려면 더 긴 generation trajectory가 필요하고, reasoning chain의 intelligence density를 더 높여야 한다고 적었어. 이후 LocalLLaMA 글에서는 V4 Pro도 토큰을 많이 쓴다는 관찰이 나왔어.

이 논쟁은 바로 운영 체크리스트로 바꿔야 해.

같은 입력으로 non-thinking, thinking, max reasoning을 나눠 불러.
output token과 wall-clock latency를 같은 표에 기록해.
tool call 성공률과 retry 횟수를 답 품질 옆에 붙여 봐.
사람이 다시 고치는 시간까지 넣어야 agent 작업의 실제 비용이 보여.

“모델이 똑똑한가”만 보면 V4 Pro를 잘못 고르기 쉬워. agent 작업에서는 답 품질, 토큰 수, 도구 호출 안정성, 사람이 다시 고치는 비용이 한 묶음이야.

또 하나는 legacy 모델명이야. DeepSeek 변경 기록은 deepseek-chat과 deepseek-reasoner가 2026-07-24 이후 중단되고, 현재는 각각 V4-Flash non-thinking과 thinking mode로 연결된다고 안내해. 새 연동을 만든다면 deepseek-v4-pro와 deepseek-v4-flash를 직접 쓰고, Pro를 기본값으로 둘지 Flash를 기본값으로 둘지는 비용표와 실패 비용으로 나눠 정하는 편이 낫겠어.

같이 보면 좋은 모델

DeepSeek V4: V4 Pro와 Flash를 같은 계열 안에서 비교할 때 먼저 보면 좋아.
DeepSeek: 회사, API 서비스, 공개 모델 계열이 한 이름으로 묶일 때 층위를 가르는 기준이 돼.
DeepSeek-V3.2-Speciale: V3.2의 고연산 reasoning 변형이라서 V4 Pro의 벤치마크와 token efficiency 논쟁을 비교할 때 배경이 돼.
DeepSeek Sparse Attention: V3.2에서 긴 문맥 비용을 줄이려 했던 attention 구조를 이해할 때 같이 보면 좋아.

V4 Pro (딥시크 V4 프로)

모델 프로필

상위 모델

전체 AI 기술 맵에서의 위치

한 줄 정의

이 모델로 무엇을 할 수 있나

왜 중요한가

숫자와 API 조건

주의해서 볼 점

같이 보면 좋은 모델

관련 용어