한 줄 정의
DeepSeek V4 Preview는 DeepSeek가 2026년 4월 24일 공개한 1M 컨텍스트 모델 계열이야. 공식 발표 기준으로 DeepSeek-V4-Pro는 1.6T total / 49B active parameters, DeepSeek-V4-Flash는 284B total / 13B active parameters로 나뉘어.
먼저 볼 건 DeepGEMM이 아니라 모델 제품군이야. DeepGEMM은 GitHub README에서 FP8/FP4 GEMM과 Mega MoE 같은 커널 구현 조건을 확인할 때 따로 보는 인프라 자료야.
이 모델로 무엇을 할 수 있나
DeepSeek V4는 긴 입력을 한 번에 읽고 답해야 하는 API 작업에 먼저 맞아. 고객지원 챗봇이 정책 문서와 이전 대화를 같이 읽거나, 긴 RAG 답변에서 검색 결과를 많이 넣어야 할 때 1M context가 의미 있어. 다만 입력 토큰이 늘면 비용과 지연 시간도 같이 늘어.
코딩 에이전트나 분석 자동화에서는 V4-Pro와 V4-Flash를 나눠 봐야 해. 실패한 답을 사람이 다시 고치는 비용이 크면 Pro가 후보가 되고, 요약·분류·단순 에이전트 작업처럼 요청 수가 많고 품질 리스크가 낮으면 Flash로 먼저 비용을 계산해도 돼.
로컬 배포에서는 오픈 웨이트가 출발점일 뿐이야. 실제로는 Mixture of Experts 서빙, 1M context 메모리, GPU 세대, CUDA 버전, PyTorch 조건을 맞춰야 해서 API 선택과 완전히 다른 검토가 필요해. 전문가 혼합은 토큰을 여러 전문가 경로로 나눠 보내 일부 파라미터만 켜는 방식이라, 서빙 엔진이 그 경로를 잘 다뤄야 해.
버전 차이
V4-Pro는 더 큰 모델이야. 긴 추론, 코딩, 에이전트 작업처럼 답 품질을 먼저 봐야 하는 작업에서 후보가 돼. 가격표 기준으로 2026-05-01 현재 Pro의 할인 가격은 캐시가 맞은 입력(cache hit input) $0.003625/1M 토큰, 캐시를 맞추지 못한 입력(cache miss input) $0.435/1M 토큰, 출력 $0.87/1M 토큰이야.
V4-Flash는 더 작고 싸게 쓰는 모델이야. 공식 발표는 Flash의 reasoning 성격이 Pro에 가깝고 단순 에이전트 작업에서는 Pro와 비슷하게 동작한다고 설명해. 이건 독립 검증이라기보다 벤더 주장으로 읽고, 실제 선택은 실패 비용과 요청 수로 갈라 보는 게 나아. 가격표 기준으로 Flash는 캐시가 맞은 입력 $0.0028/1M 토큰, 캐시를 맞추지 못한 입력 $0.14/1M 토큰, 출력 $0.28/1M 토큰이야.
둘 다 1M context와 최대 384K output을 지원하고, Thinking mode와 Non-Thinking mode를 모두 제공해. 기존 deepseek-chat은 현재 V4-Flash non-thinking mode로, deepseek-chat는 V4-Flash thinking mode로 연결돼. 둘 다 2026-07-24 15:59 UTC 이후 접근할 수 없다고 공지됐으니 새 API 연동은 deepseek-v4-pro나 deepseek-v4-flash를 직접 쓰는 게 낫겠어.
접근과 가격
API에서는 base URL을 그대로 두고 model 값만 바꾸면 돼. OpenAI 호환 호출은 https://api.deepseek.com, Anthropic 호환 호출은 https://api.deepseek.com/anthropic이고, 모델명은 deepseek-v4-pro 또는 deepseek-v4-flash야.
비용은 같은 1M context 모델이라도 Pro와 Flash가 꽤 갈려. 긴 RAG 검색 답변처럼 입력 토큰이 많이 쌓이고 요청 수가 많은 서비스라면 Flash로 먼저 계산하는 게 자연스러워. 반대로 코딩 에이전트처럼 실패한 답변을 사람이 다시 고치는 비용이 더 크면 Pro의 할인 가격을 넣고 비교해볼 만해.
로컬 배포는 API와 다른 문제야. 공식 release note는 오픈 웨이트 경로를 공개하지만, 실제 운영에서는 Mixture of Experts 라우팅, 1M context 메모리, 서빙 엔진, GPU 구성을 따로 맞춰야 해. Attention은 문맥 안의 토큰 관계를 계산하는 단계라 긴 입력에서 메모리 부담이 커져. 이 조건을 못 맞추면 DeepGEMM 업데이트가 곧바로 로컬 추론 비용 절감으로 이어진다고 보면 안 돼.
왜 중요한가
DeepSeek V4에서 중요한 건 같은 이름 안에 큰 모델과 싼 모델이 같이 있다는 점이야. Pro와 Flash를 구분하지 않으면 성능 비교도, 비용 계산도 바로 틀어져.
특히 기존 deepseek-chat과 deepseek-reasoner를 그대로 쓰던 팀은 모델 이름만의 문제가 아니야. legacy 이름이 2026-07-24 15:59 UTC 이후 접근할 수 없다고 공지됐기 때문에, 새 이름으로 바꾸는 김에 Flash와 Pro 중 어떤 모델을 기본값으로 둘지도 같이 정해야 해.
또 하나는 1M context야. 긴 계약서, 로그, 검색 결과를 한 번에 넣는 RAG에서는 128K급 모델을 여러 번 나눠 부를 때보다 설계가 단순해질 수 있어. 다만 1M context를 매번 꽉 채우면 토큰 비용과 지연 시간이 같이 늘어. 긴 입력이 필요한 요청만 V4로 보내고 짧은 요청은 더 싼 경로로 나누는 식의 라우팅부터 잡는 편이 나아.
실무에서 먼저 확인할 조건
- API 사용자라면
deepseek-chat과deepseek-reasoner를 계속 쓰는지 먼저 확인해. 2026-07-24 전에deepseek-v4-flash또는deepseek-v4-pro로 바꿔야 해. - 비용을 먼저 줄여야 하면 Flash로 예산을 계산해. 1M context, 384K output이 필요하지만 요청당 품질 리스크가 낮은 요약, 분류, 단순 에이전트 작업에 맞아.
- 긴 추론 품질이 더 중요하면 Pro를 비교해. 다만 Pro의 현재 할인은 2026-05-31 15:59 UTC까지라, 장기 예산에는 할인 전 가격도 넣어야 해.
- 운영 리스크도 같이 봐. Preview 모델이라 품질과 지연 시간을 다시 재야 하고, Open Platform 약관은 지역별 가용성과 관할권을 따로 확인하게 해.
- 로컬 배포 팀이라면 오픈 웨이트만 보고 결정하지 않는 편이 좋아. MoE 서빙, Attention 메모리, GPU 세대, CUDA 버전, DeepGEMM 빌드 조건을 먼저 확인해야 해.
같이 보면 좋은 모델
- DeepSeek R1: 추론 모델 자체를 비교할 때 같이 봐. R1은 reasoning 전용 모델명으로 읽는 편이 맞고, V4는 Pro/Flash 안에서 thinking mode를 제공하는 1M context 계열로 보는 게 정확해.
- DeepSeek: 회사, API 서비스, 공개 모델 계열이 한 이름으로 묶일 때 어디를 말하는지 가르는 기준이 돼. V4-Pro와 V4-Flash가 기존
deepseek-chat/deepseek-reasoner이름을 어떻게 대체하는지도 같이 잡을 수 있어. - deepseek-v4-pro: 같은 V4 계열 안에서 긴 추론, 코딩 에이전트, 실패 비용이 큰 답변을 맡길 때 비교할 모델명이야.
- deepseek-v4-flash: 같은 V4 계열 안에서 고객지원 챗봇, 대량 요약, 긴 RAG 답변처럼 요청 수와 입력량이 비용을 좌우할 때 먼저 견적을 낼 모델명이야.