이 용어는 어디까지 신뢰할 수 있나요?

V4-Flash (딥시크 V4-Flash)는 DeepSeek V4 안에서 더 작고 빠르게 쓰는 모델 버전이야. DeepSeek API에서는 deepseek-v4-flash로 호출하고, 공개 가중치 쪽에서는 Hugging Face의 DeepSeek V4 Flash 모델 카드로 확인할 수 있어. 검색 결과에서는 v4 flash처럼 공백 표기로도 자주 보여.

핵심 숫자는 전체 284B, 활성 13B야. 같은 V4 계열의 Pro는 전체 1.6T, 활성 49B라서, V4-Flash는 “성능을 끝까지 밀어붙이는 모델”보다 “요청량이 많은 작업에서 먼저 가격을 맞춰 볼 모델”에 가까워.

이 모델로 무엇을 할 수 있나

쓸 곳은 네 갈래로 나눠 보면 돼.

API 호출: OpenAI 형식이면 https://api.deepseek.com, Anthropic 형식이면 https://api.deepseek.com/anthropic을 base_url로 두고, 모델 값에 Flash 전용 이름을 넣어. 기존 chat 별칭은 비추론 모드로, reasoner 별칭은 추론 모드로 이어져.
처리량 많은 작업: 대량 요약, 고객지원 답변 초안, 긴 RAG 입력, 단순 에이전트 작업에 먼저 맞아. 1M 컨텍스트와 최대 384K 출력은 긴 로그를 한 번에 넣는 데 도움이 되지만, 입력이 길수록 토큰 비용과 지연도 같이 늘어.
모드 선택: Thinking mode는 계획, 추론, 도구 호출이 필요한 요청에 써. DeepSeek 문서 기준 이 모드는 기본으로 켜져 있고, 끄려면 thinking 설정을 바꿔야 해. 이 모드에서는 temperature, top_p, presence_penalty, frequency_penalty가 효과를 내지 않고, 도구 호출 뒤에는 reasoning_content를 다음 요청에 넘겨야 해.
로컬 실험: 공개 가중치로 로컬 LLM처럼 돌려볼 수는 있어. 다만 Docker 실행 예시가 있다고 바로 운영되는 건 아니야. GPU 메모리, vLLM/SGLang 설정, FP4와 FP8 혼합 정밀도, MIT 라이선스 조건, 컨텍스트 길이를 같이 맞춰야 해.

왜 중요한가

V4-Flash가 중요한 이유는 DeepSeek API의 기본 별칭 해석을 바꿔 놓기 때문이야. 2025년 1월의 DeepSeek R1 공지에서는 reasoner 모델명이 R1 접근 경로로 읽혔지만, 2026년 4월 24일 이후 문서는 그 이름이 호환용으로 V4-Flash 추론 모드에 대응한다고 적어. 예전 로그와 지금 코드를 같은 눈으로 보면 바로 헷갈려.

비용도 직접적이야. 2026년 5월 7일 확인한 공식 가격표 기준으로 V4-Flash는 캐시가 맞은 입력 $0.0028/1M tokens, 캐시가 맞지 않은 입력 $0.14/1M tokens, 출력 $0.28/1M tokens야. 요청 수가 많고 답 하나의 실패 비용이 낮은 서비스라면 Pro보다 Flash를 먼저 계산하는 게 자연스러워.

반대로 코딩 에이전트, 복잡한 계획 수립, 도구 호출이 많은 작업에서는 가격만 보면 부족해. DeepSeek는 짧고 단순한 agent 작업에서는 Flash가 Pro와 비슷하다고 설명하지만, 공개 모델 카드와 외부 평가를 보면 도구 호출과 긴 계획이 섞인 평가에서는 Pro보다 뒤에 놓이는 경우가 많아. 사람 검토 비용이 크면 Flash와 Pro를 같은 문제 세트로 다시 재야 해.

주의해서 볼 점

모델명: V4 Preview는 출시 표기이고, 실제 API model 값은 Flash 전용 이름이야.
별칭 종료: 기존 chat/reasoner 이름은 2026-07-24에 폐기될 예정이야. 새 코드에는 새 Flash 모델명을 직접 넣는 편이 나아.
모드 차이: 비추론 모드는 빠른 일상 답변에, 추론 모드는 계획·추론·도구 호출에 맞아. FIM Completion은 공식 가격표 기준 비추론 모드에서만 지원돼.
가격 기준: 가격표는 바뀔 수 있어. 캐시가 맞은 입력, 캐시가 맞지 않은 입력, 출력을 분리하지 않으면 긴 RAG 비용을 작게 잡기 쉬워.
벤치마크: 외부 평가에서는 V4-Flash Max를 Intelligence Index 47로 봤고, 환각률 96%도 함께 적었어. 숫자는 비교 단서지만 내 업무 데이터의 최종 품질 보증은 아니야.

같이 보면 좋은 모델

DeepSeek V4: V4-Flash가 속한 모델 계열이야. Pro와 Flash를 한 번에 비교하면서 1M 컨텍스트, 가격, 공개 가중치, 호환 별칭 폐기를 같이 볼 수 있어.
DeepSeek Reasoner: 기존 reasoner 이름을 계속 쓰는 코드라면 같이 봐야 해. 지금은 R1 전용 이름처럼 읽기보다 V4-Flash 추론 모드 호환 이름으로 보는 게 맞아.
deepseek-chat: 비추론 모드 호환 별칭을 확인할 때 필요해. 단순 채팅 이름처럼 보여도 2026-07-24 폐기 일정이 붙어 있어.
Benchmark: V4-Flash와 V4-Pro를 고를 때 필요한 비교 틀이야. 공식 점수, Hugging Face 평가, 내 내부 테스트를 같은 성격으로 섞지 않게 해 줘.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-07 KST

검증 생성: AI + 편집 검토 · 2026-05-07 상태: 통과

통과 원문 대조 검증 출처 7

V4 발표, 가격 문서, 시작 문서, 추론 모드 문서, 공개 모델 카드를 맞춰 보니 V4-Flash는 실제 API 모델이면서 공개 가중치 모델이야.

독자 문제 대조: `V4-Flash`를 출시 별명으로 볼지, API의 `model` 값으로 볼지, 기존 chat/reasoner 호환 이름으로 볼지 먼저 나누게 했어.
DeepSeek V4 발표는 2026-04-24에 V4-Pro와 V4-Flash를 함께 공개했고, Flash의 크기를 전체 284B, 활성 13B로 적어.
가격 문서는 Flash가 1M 컨텍스트, 최대 384K 출력, 두 응답 모드, JSON 출력, 도구 호출, 채팅 prefix completion을 지원한다고 적어.
시작 문서는 OpenAI 형식 `base_url`인 `https://api.deepseek.com`과 Anthropic 형식 주소를 그대로 두고 모델명만 고르는 구조를 보여 줘.
공개 가중치 페이지는 텍스트 생성, Transformers, Safetensors, MIT 라이선스, vLLM/SGLang 실행 예시를 같이 보여 줘.

통과 교차 검증 검증 출처 5

공식 문서, 모델 허브, 외부 벤치마크 글, Simon Willison 글을 나눠 보니 크기·가격·텍스트 전용 성격·Pro와의 차이가 같은 방향으로 잡혀.

비교 기준: 공식 문서는 출시와 API 라우팅을, 모델 허브는 가중치와 로컬 실행 경로를, 외부 글 둘은 독립 해석과 가격 비교를 확인하는 데 썼어.
Artificial Analysis는 Flash를 전체 284B, 활성 13B, 1M 컨텍스트, 텍스트 입출력 모델로 다시 적어.
Simon Willison 글도 Pro 1.6T/49B와 Flash 284B/13B, 1M 토큰 컨텍스트, MIT 라이선스, Flash API 가격을 따로 확인해.
V4 collection에는 Flash Base, Flash, Pro Base, Pro 네 항목이 나뉘어 있어. 그래서 Flash는 DeepSeek V4 전체 계열이나 Pro 모델과 같은 항목이 아니야.
DeepSeek-R1 GitHub와 2025-01-20 R1 공지는 R1/Reasoner의 이전 맥락을 확인하는 보조 출처로만 썼고, Flash의 출시일이나 가격 근거로 쓰지 않았어.

통과 수치 검증 검증 출처 6

날짜, 모델 크기, 컨텍스트 길이, 출력 한도, 가격, 별칭 폐기일, 공개 평가 수치를 각각 출처별로 고정했어.

Flash 공개일은 DeepSeek V4 Preview 공지와 변경 로그 기준 2026-04-24야.
공식 발표와 공개 가중치 본문은 이 모델을 전체 284B, 활성 13B, 1M 컨텍스트로 적어.
가격표는 2026-05-07 확인 시점에 Flash 비용을 캐시 적중 입력 $0.0028/1M, 캐시 미적중 입력 $0.14/1M, 출력 $0.28/1M tokens로 적어.
가격 표는 두 V4 모델의 컨텍스트 길이를 1M, 최대 출력을 384K로 적고, FIM Completion은 비추론 모드 전용이라고 표시해.
공식 문서는 기존 chat 별칭과 reasoner 별칭이 각각 Flash의 비추론/추론 모드에 대응하며 2026-07-24에 폐기될 예정이라고 적어.
모델 카드의 공개 평가 영역은 Flash 쪽 수치로 SWE-bench Verified 79, GPQA Diamond 88.1, MMLU-Pro 86.4, TerminalBench 2.0 56.9, HLE 34.8을 표시해.

통과 비판 검토 검증 출처 6

저렴하다는 장점만 남기면 과해지기 쉬워서, 벤더 주장, 외부 벤치마크, 호환 별칭, 로컬 실행 비용을 따로 눌러 봤어.

DeepSeek가 말한 Pro와 비슷한 단순 agent 작업은 검색 없이 짧게 끝나는 작업으로 좁혀 읽었어. 본문에서도 실패 비용이 낮은 작업부터 Flash로 실험하라고 제한했어.
외부 벤치마크 글은 Flash Max가 Intelligence Index 47로 V4-Pro보다 낮고, 환각률 96%를 보였다고 적어. 이 수치는 모든 업무의 품질을 보장하지는 않아.
가격표는 제품 가격이 바뀔 수 있다고 직접 적어. 그래서 본문 가격은 2026-05-07 확인 시점으로만 고정했어.
reasoner 호환 이름이 과거 R1 계열을 떠올리게 해도 현재 라우팅은 Flash의 추론 모드로 이어져. 날짜를 빼면 운영 로그를 잘못 읽기 쉬워.
Hugging Face 가중치가 공개됐다는 말은 직접 실행할 수 있다는 출발점이지, 1M 컨텍스트를 싸게 로컬 운영할 수 있다는 보장은 아니야.

이 페이지는 Flash를 Pro의 완전 대체재로 쓰지 않고, 요청량이 많고 실패 비용이 낮은 작업에서 먼저 계산할 모델로 좁혀 설명했어.
R1 출처는 계보와 별칭 오해를 줄이는 보조 근거로만 남기고, Flash 자체 수치는 V4 공식 문서와 공개 가중치 페이지에서 확인했어.

출처: DeepSeek V4 Preview Release | DeepSeek API Docs , DeepSeek API Docs - Models & Pricing , DeepSeek API Docs - Your First API Call , DeepSeek API Docs - Thinking Mode , DeepSeek API Docs - Change Log , Hugging Face - deepseek-ai/DeepSeek-V4-Flash , Hugging Face - DeepSeek-V4 collection , deepseek-ai/DeepSeek-R1 , DeepSeek-R1 Release | DeepSeek API Docs , Artificial Analysis - DeepSeek V4 Pro and V4 Flash , Simon Willison - DeepSeek V4

V4-Flash (딥시크 V4-Flash)

모델 프로필

상위 모델

전체 AI 기술 맵에서의 위치

한 줄 정의

이 모델로 무엇을 할 수 있나

왜 중요한가

주의해서 볼 점

같이 보면 좋은 모델

관련 용어

이 항목을 참조하는 위키