한 줄 정의

V4-Flash (딥시크 V4-Flash)는 DeepSeek V4 안에서 더 작고 빠르게 쓰는 모델 버전이야. DeepSeek API에서는 deepseek-v4-flash로 호출하고, 공개 가중치 쪽에서는 Hugging FaceDeepSeek V4 Flash 모델 카드로 확인할 수 있어. 검색 결과에서는 v4 flash처럼 공백 표기로도 자주 보여.

핵심 숫자는 전체 284B, 활성 13B야. 같은 V4 계열의 Pro는 전체 1.6T, 활성 49B라서, V4-Flash는 “성능을 끝까지 밀어붙이는 모델”보다 “요청량이 많은 작업에서 먼저 가격을 맞춰 볼 모델”에 가까워.

이 모델로 무엇을 할 수 있나

쓸 곳은 네 갈래로 나눠 보면 돼.

  • API 호출: OpenAI 형식이면 https://api.deepseek.com, Anthropic 형식이면 https://api.deepseek.com/anthropicbase_url로 두고, 모델 값에 Flash 전용 이름을 넣어. 기존 chat 별칭은 비추론 모드로, reasoner 별칭은 추론 모드로 이어져.
  • 처리량 많은 작업: 대량 요약, 고객지원 답변 초안, 긴 RAG 입력, 단순 에이전트 작업에 먼저 맞아. 1M 컨텍스트와 최대 384K 출력은 긴 로그를 한 번에 넣는 데 도움이 되지만, 입력이 길수록 토큰 비용과 지연도 같이 늘어.
  • 모드 선택: Thinking mode는 계획, 추론, 도구 호출이 필요한 요청에 써. DeepSeek 문서 기준 이 모드는 기본으로 켜져 있고, 끄려면 thinking 설정을 바꿔야 해. 이 모드에서는 temperature, top_p, presence_penalty, frequency_penalty가 효과를 내지 않고, 도구 호출 뒤에는 reasoning_content를 다음 요청에 넘겨야 해.
  • 로컬 실험: 공개 가중치로컬 LLM처럼 돌려볼 수는 있어. 다만 Docker 실행 예시가 있다고 바로 운영되는 건 아니야. GPU 메모리, vLLM/SGLang 설정, FP4FP8 혼합 정밀도, MIT 라이선스 조건, 컨텍스트 길이를 같이 맞춰야 해.

왜 중요한가

V4-Flash가 중요한 이유는 DeepSeek API의 기본 별칭 해석을 바꿔 놓기 때문이야. 2025년 1월의 DeepSeek R1 공지에서는 reasoner 모델명이 R1 접근 경로로 읽혔지만, 2026년 4월 24일 이후 문서는 그 이름이 호환용으로 V4-Flash 추론 모드에 대응한다고 적어. 예전 로그와 지금 코드를 같은 눈으로 보면 바로 헷갈려.

비용도 직접적이야. 2026년 5월 7일 확인한 공식 가격표 기준으로 V4-Flash는 캐시가 맞은 입력 $0.0028/1M tokens, 캐시가 맞지 않은 입력 $0.14/1M tokens, 출력 $0.28/1M tokens야. 요청 수가 많고 답 하나의 실패 비용이 낮은 서비스라면 Pro보다 Flash를 먼저 계산하는 게 자연스러워.

반대로 코딩 에이전트, 복잡한 계획 수립, 도구 호출이 많은 작업에서는 가격만 보면 부족해. DeepSeek는 짧고 단순한 agent 작업에서는 Flash가 Pro와 비슷하다고 설명하지만, 공개 모델 카드와 외부 평가를 보면 도구 호출과 긴 계획이 섞인 평가에서는 Pro보다 뒤에 놓이는 경우가 많아. 사람 검토 비용이 크면 Flash와 Pro를 같은 문제 세트로 다시 재야 해.

주의해서 볼 점

  • 모델명: V4 Preview는 출시 표기이고, 실제 API model 값은 Flash 전용 이름이야.
  • 별칭 종료: 기존 chat/reasoner 이름은 2026-07-24에 폐기될 예정이야. 새 코드에는 새 Flash 모델명을 직접 넣는 편이 나아.
  • 모드 차이: 비추론 모드는 빠른 일상 답변에, 추론 모드는 계획·추론·도구 호출에 맞아. FIM Completion은 공식 가격표 기준 비추론 모드에서만 지원돼.
  • 가격 기준: 가격표는 바뀔 수 있어. 캐시가 맞은 입력, 캐시가 맞지 않은 입력, 출력을 분리하지 않으면 긴 RAG 비용을 작게 잡기 쉬워.
  • 벤치마크: 외부 평가에서는 V4-Flash Max를 Intelligence Index 47로 봤고, 환각률 96%도 함께 적었어. 숫자는 비교 단서지만 내 업무 데이터의 최종 품질 보증은 아니야.

같이 보면 좋은 모델

  • DeepSeek V4: V4-Flash가 속한 모델 계열이야. Pro와 Flash를 한 번에 비교하면서 1M 컨텍스트, 가격, 공개 가중치, 호환 별칭 폐기를 같이 볼 수 있어.
  • DeepSeek Reasoner: 기존 reasoner 이름을 계속 쓰는 코드라면 같이 봐야 해. 지금은 R1 전용 이름처럼 읽기보다 V4-Flash 추론 모드 호환 이름으로 보는 게 맞아.
  • deepseek-chat: 비추론 모드 호환 별칭을 확인할 때 필요해. 단순 채팅 이름처럼 보여도 2026-07-24 폐기 일정이 붙어 있어.
  • Benchmark: V4-Flash와 V4-Pro를 고를 때 필요한 비교 틀이야. 공식 점수, Hugging Face 평가, 내 내부 테스트를 같은 성격으로 섞지 않게 해 줘.