이 용어는 어디까지 신뢰할 수 있나요?

DeepSeek V4 Preview는 DeepSeek가 2026년 4월 24일 공개한 1M 컨텍스트 모델 계열이야. 공식 발표 기준으로 DeepSeek-V4-Pro는 1.6T total / 49B active parameters, DeepSeek-V4-Flash는 284B total / 13B active parameters로 나뉘어.

먼저 볼 건 DeepGEMM이 아니라 모델 제품군이야. DeepGEMM은 GitHub README에서 FP8/FP4 GEMM과 Mega MoE 같은 커널 구현 조건을 확인할 때 따로 보는 인프라 자료야.

이 모델로 무엇을 할 수 있나

DeepSeek V4는 긴 입력을 한 번에 읽고 답해야 하는 API 작업에 먼저 맞아. 고객지원 챗봇이 정책 문서와 이전 대화를 같이 읽거나, 긴 RAG 답변에서 검색 결과를 많이 넣어야 할 때 1M context가 의미 있어. 다만 입력 토큰이 늘면 비용과 지연 시간도 같이 늘어.

코딩 에이전트나 분석 자동화에서는 V4-Pro와 V4-Flash를 나눠 봐야 해. 실패한 답을 사람이 다시 고치는 비용이 크면 Pro가 후보가 되고, 요약·분류·단순 에이전트 작업처럼 요청 수가 많고 품질 리스크가 낮으면 Flash로 먼저 비용을 계산해도 돼.

로컬 배포에서는 오픈 웨이트가 출발점일 뿐이야. 실제로는 Mixture of Experts 서빙, 1M context 메모리, GPU 세대, CUDA 버전, PyTorch 조건을 맞춰야 해서 API 선택과 완전히 다른 검토가 필요해. 전문가 혼합은 토큰을 여러 전문가 경로로 나눠 보내 일부 파라미터만 켜는 방식이라, 서빙 엔진이 그 경로를 잘 다뤄야 해.

버전 차이

V4-Pro는 더 큰 모델이야. 긴 추론, 코딩, 에이전트 작업처럼 답 품질을 먼저 봐야 하는 작업에서 후보가 돼. 가격표 기준으로 2026-05-01 현재 Pro의 할인 가격은 캐시가 맞은 입력(cache hit input) $0.003625/1M 토큰, 캐시를 맞추지 못한 입력(cache miss input) $0.435/1M 토큰, 출력 $0.87/1M 토큰이야.

V4-Flash는 더 작고 싸게 쓰는 모델이야. 공식 발표는 Flash의 reasoning 성격이 Pro에 가깝고 단순 에이전트 작업에서는 Pro와 비슷하게 동작한다고 설명해. 이건 독립 검증이라기보다 벤더 주장으로 읽고, 실제 선택은 실패 비용과 요청 수로 갈라 보는 게 나아. 가격표 기준으로 Flash는 캐시가 맞은 입력 $0.0028/1M 토큰, 캐시를 맞추지 못한 입력 $0.14/1M 토큰, 출력 $0.28/1M 토큰이야.

둘 다 1M context와 최대 384K output을 지원하고, Thinking mode와 Non-Thinking mode를 모두 제공해. 기존 deepseek-chat은 현재 V4-Flash non-thinking mode로, deepseek-chat는 V4-Flash thinking mode로 연결돼. 둘 다 2026-07-24 15:59 UTC 이후 접근할 수 없다고 공지됐으니 새 API 연동은 deepseek-v4-pro나 deepseek-v4-flash를 직접 쓰는 게 낫겠어.

접근과 가격

API에서는 base URL을 그대로 두고 model 값만 바꾸면 돼. OpenAI 호환 호출은 https://api.deepseek.com, Anthropic 호환 호출은 https://api.deepseek.com/anthropic이고, 모델명은 deepseek-v4-pro 또는 deepseek-v4-flash야.

비용은 같은 1M context 모델이라도 Pro와 Flash가 꽤 갈려. 긴 RAG 검색 답변처럼 입력 토큰이 많이 쌓이고 요청 수가 많은 서비스라면 Flash로 먼저 계산하는 게 자연스러워. 반대로 코딩 에이전트처럼 실패한 답변을 사람이 다시 고치는 비용이 더 크면 Pro의 할인 가격을 넣고 비교해볼 만해.

로컬 배포는 API와 다른 문제야. 공식 release note는 오픈 웨이트 경로를 공개하지만, 실제 운영에서는 Mixture of Experts 라우팅, 1M context 메모리, 서빙 엔진, GPU 구성을 따로 맞춰야 해. Attention은 문맥 안의 토큰 관계를 계산하는 단계라 긴 입력에서 메모리 부담이 커져. 이 조건을 못 맞추면 DeepGEMM 업데이트가 곧바로 로컬 추론 비용 절감으로 이어진다고 보면 안 돼.

왜 중요한가

DeepSeek V4에서 중요한 건 같은 이름 안에 큰 모델과 싼 모델이 같이 있다는 점이야. Pro와 Flash를 구분하지 않으면 성능 비교도, 비용 계산도 바로 틀어져.

특히 기존 deepseek-chat과 deepseek-reasoner를 그대로 쓰던 팀은 모델 이름만의 문제가 아니야. legacy 이름이 2026-07-24 15:59 UTC 이후 접근할 수 없다고 공지됐기 때문에, 새 이름으로 바꾸는 김에 Flash와 Pro 중 어떤 모델을 기본값으로 둘지도 같이 정해야 해.

또 하나는 1M context야. 긴 계약서, 로그, 검색 결과를 한 번에 넣는 RAG에서는 128K급 모델을 여러 번 나눠 부를 때보다 설계가 단순해질 수 있어. 다만 1M context를 매번 꽉 채우면 토큰 비용과 지연 시간이 같이 늘어. 긴 입력이 필요한 요청만 V4로 보내고 짧은 요청은 더 싼 경로로 나누는 식의 라우팅부터 잡는 편이 나아.

실무에서 먼저 확인할 조건

API 사용자라면 deepseek-chat과 deepseek-reasoner를 계속 쓰는지 먼저 확인해. 2026-07-24 전에 deepseek-v4-flash 또는 deepseek-v4-pro로 바꿔야 해.
비용을 먼저 줄여야 하면 Flash로 예산을 계산해. 1M context, 384K output이 필요하지만 요청당 품질 리스크가 낮은 요약, 분류, 단순 에이전트 작업에 맞아.
긴 추론 품질이 더 중요하면 Pro를 비교해. 다만 Pro의 현재 할인은 2026-05-31 15:59 UTC까지라, 장기 예산에는 할인 전 가격도 넣어야 해.
운영 리스크도 같이 봐. Preview 모델이라 품질과 지연 시간을 다시 재야 하고, Open Platform 약관은 지역별 가용성과 관할권을 따로 확인하게 해.
로컬 배포 팀이라면 오픈 웨이트만 보고 결정하지 않는 편이 좋아. MoE 서빙, Attention 메모리, GPU 세대, CUDA 버전, DeepGEMM 빌드 조건을 먼저 확인해야 해.

같이 보면 좋은 모델

DeepSeek R1: 추론 모델 자체를 비교할 때 같이 봐. R1은 reasoning 전용 모델명으로 읽는 편이 맞고, V4는 Pro/Flash 안에서 thinking mode를 제공하는 1M context 계열로 보는 게 정확해.
DeepSeek: 회사, API 서비스, 공개 모델 계열이 한 이름으로 묶일 때 어디를 말하는지 가르는 기준이 돼. V4-Pro와 V4-Flash가 기존 deepseek-chat/deepseek-reasoner 이름을 어떻게 대체하는지도 같이 잡을 수 있어.
deepseek-v4-pro: 같은 V4 계열 안에서 긴 추론, 코딩 에이전트, 실패 비용이 큰 답변을 맡길 때 비교할 모델명이야.
deepseek-v4-flash: 같은 V4 계열 안에서 고객지원 챗봇, 대량 요약, 긴 RAG 답변처럼 요청 수와 입력량이 비용을 좌우할 때 먼저 견적을 낼 모델명이야.

이 항목을 참조하는 위키

포맷 v2 가이드 wiki 3.1.2

팩트 체크

통과 · 2026-05-01 KST

검증 생성: AI + 편집 검토 · 2026-05-01 상태: 통과

통과 원문 대조 검증 출처 7

공식 release note는 V4 Preview를 Pro와 Flash 두 모델, 1M context, open weights, API 모델명으로 발표했고 DeepGEMM은 별도 인프라 배경으로만 확인돼.

독자 문제 대조: 기존 `deepseek-chat`이나 `deepseek-reasoner`를 계속 쓰면 2026-07-24 이후 API 연동이 깨질 수 있으므로, legacy 모델명 종료일과 새 모델명 `deepseek-v4-pro`/`deepseek-v4-flash`를 함께 확인해야 해.
DeepSeek 공식 release note는 2026-04-24 DeepSeek-V4 Preview를 공개했고, 모델을 DeepSeek-V4-Pro와 DeepSeek-V4-Flash로 나눠 설명해.
공식 문서는 두 V4 모델 모두 1M context와 Thinking/Non-Thinking mode를 지원한다고 설명해.
GitHub DeepGEMM README는 FP8/FP4 GEMM, Mega MoE, JIT CUDA 커널과 GPU·CUDA·PyTorch 조건을 설명하지만, V4 API 가격이나 모델 접근 경로를 대신 검증하지는 않아.

통과 교차 검증 검증 출처 6

release note, changelog, pricing, API 시작 문서가 공개일, 모델명, 접근 방식, 가격표, 별칭 폐기 일정을 서로 확인해.

비교 기준: Pro/Flash 선택은 pricing의 가격과 1M context 조건, Quick Start와 changelog의 접근 경로와 legacy routing, transparency page의 open weights 경로를 나눠 봐야 해. 가격은 비용 판단, 접근 경로와 legacy routing은 API migration 판단, open weights는 로컬 배포 판단을 바꿔.
Change Log는 2026-04-24에 V4-Pro와 V4-Flash가 OpenAI ChatCompletions와 Anthropic interface로 제공된다고 적어.
Quick Start는 base_url을 https://api.deepseek.com 또는 https://api.deepseek.com/anthropic으로 두고 model 값만 V4 모델명으로 바꾸는 구조를 보여줘.
Pricing 문서는 두 모델의 1M context, 384K max output, 1M token 단위 가격을 따로 제시해.
Open Platform 약관은 지역별 서비스 가용성, 테스트 기능 안정성, 가격 변경, 관할권을 운영 리스크로 따로 확인하게 해.

통과 수치 검증 검증 출처 4

핵심 수치는 Pro 1.6T/49B, Flash 284B/13B, 1M context, 384K max output, 2026-07-24 15:59 UTC 종료 예정일, 1M token 단위 가격으로 확인돼.

DeepSeek-V4-Pro는 1.6T total parameters와 49B active parameters로 공지됐어.
DeepSeek-V4-Flash는 284B total parameters와 13B active parameters로 공지됐어.
공식 가격표는 두 모델 모두 context length 1M, max output 384K로 적고 있어.
2026-05-01 기준 가격표에서 Flash는 cache hit input $0.0028/1M, cache miss input $0.14/1M, output $0.28/1M이야.
Pro는 2026-05-31 15:59 UTC까지 할인 가격으로 cache hit input $0.003625/1M, cache miss input $0.435/1M, output $0.87/1M이야.
deepseek-chat과 deepseek-reasoner는 2026-07-24 15:59 UTC 이후 접근할 수 없고, 현재는 deepseek-v4-flash의 non-thinking/thinking mode로 연결돼.

통과 비판 검토 검증 출처 6

V4 Preview는 공개된 모델 제품군이지만, 가격·로컬 배포·DeepGEMM 성능을 한 문장으로 묶으면 과장이 돼.

Preview Release라서 최종 GA 동작이나 장기 가격을 고정값으로 쓰면 위험해. Pricing 문서도 가격이 바뀔 수 있다고 안내해.
Pro 할인 가격은 2026-05-31 15:59 UTC까지로 공지돼서, 비용 비교는 현재 할인 여부를 같이 확인해야 해.
Open Platform 약관은 특정 지역에서 서비스가 계속 제공된다고 보장하지 않고, 중국 본토 법과 회사 등록지 관할 법원을 관할권으로 제시해.
DeepGEMM/Mega MoE는 커널 구현 맥락이야. V4 전체 모델을 대표하는 근거로 쓰면 안 돼.
오픈 웨이트가 있다는 말과 로컬에서 바로 1M context를 경제적으로 운영할 수 있다는 말은 달라. 서빙 엔진, GPU 메모리, 분산 설정을 따로 검증해야 해.

본문은 V4-Pro/V4-Flash의 공식 제품 정보와 DeepGEMM 커널 구현 정보를 분리해서 읽도록 정리했어.

출처: DeepSeek API Docs — DeepSeek V4 Preview Release , DeepSeek API Docs — Change Log , DeepSeek API Docs — Models & Pricing , DeepSeek API Docs — Your First API Call , DeepSeek Transparency Center , GitHub deepseek-ai/DeepGEMM , DeepSeek Open Platform Terms of Service

DeepSeek V4 (딥시크 V4)

버전 페이지

전체 AI 기술 맵에서의 위치

한 줄 정의