이 용어는 어디까지 신뢰할 수 있나요?

각 용어는 최신 공개 자료 기반으로 정리되며, 출처와 검증 기록을 바탕으로 점진적으로 업데이트됩니다.

DeepGEMM(딥시크 CUDA 커널 라이브러리)

다른 이름: deepgemmDeepGEMM

DeepGEMM은 DeepSeek가 공개한 NVIDIA CUDA/Tensor Core 커널 라이브러리야. GEMM이라는 행렬 곱셈 일을 FP8·FP4·BF16 경로로 빠르게 돌리고, 2026년 4월에는 Mega MoE와 FP4 Indexer까지 같은 코드베이스에 묶었어.

GitHub project card

deepseek-ai/DeepGEMM

원본

언어 Cuda 주 구현 언어

스타 7.2k GitHub 관심도

포크 966 재사용 신호

스킬 0 AIKI 연결 스킬

에이전트 0 AIKI 연결 에이전트

라이선스 MIT 도입 조건

최근 릴리스 v2.1.1.post3 (2025-10-15), plus 2026 nv_dev tags 업데이트 신호

설치/배포 git clone --recursive, then develop.sh or install.sh 첫 실행 경로

운영 형태 NVIDIA CUDA/Tensor Core kernels compiled through a lightweight runtime JIT 붙는 위치

유지보수 PR #316 merged 2026-04-24; GitHub UI showed 45 open issues on 2026-05-06 리스크 감각

전체 AI 기술 맵에서의 위치

응용 (Application)

프로젝트 (Project)

데이터셋 (Dataset)

기법 (Technique)

프레임워크 (Framework)

모델 (Model)

개념 (Concept)

Agents SDK(에이전트 SDK)AI Studio (AI 스튜디오)Aider(에이더)Alibaba Cloud API(알리바바 클라우드 API)Alibaba Cloud Model Studio(알리바바 클라우드 모델 스튜디오)Amazon Bedrock(아마존 베드록)Anthropic API(앤트로픽 API)App Store(앱 스토어)Batch API(배치 API)BentoML(벤토엠엘)Chat (대화형 AI 인터페이스)Chat Completions(챗 컴플리션스)ChatGPT(챗지피티)Chroma(크로마)Claude Code(클로드 코드)Claude Code Remote Control(클로드 코드 리모트 컨트롤)Claude Cowork(클로드 코워크)Claude Desktop(클로드 데스크톱)claude remote-control(클로드 리모트 컨트롤 명령)claude --version (버전 조회)claude.ai(클로드 웹 앱)Cline(클라인)CloudTrail(클라우드트레일)Codex(코덱스)Codex CLI(코덱스 CLI)ComfyUI(컴피유아이)Continue(컨티뉴)GitHub Copilot (깃허브 코파일럿)Cursor(커서)DeepSeek API(딥시크 API)DGX B200(디지엑스 B200)DGX Spark(디지엑스 스파크)Docker(도커)Excel(엑셀)FAISS (페이스)Gemini API(제미니 API)Gemini API File Search(제미니 API 파일 검색)Gemini Developer API(제미니 디벨로퍼 API)Gemini Enterprise Agent Platform(제미니 엔터프라이즈 에이전트 플랫폼)GitHub (깃허브)Gmail(지메일)Google AI Studio(구글 AI 스튜디오)Google Calendar(구글 캘린더)Google Docs(구글 문서)Google Drive(구글 드라이브)Google Search(구글 검색)Google Sheets(구글 시트)H100 (엔비디아 호퍼 GPU)Hugging Face(허깅 페이스)Jetson Thor(젯슨 토르)Kimi API(키미 API)Kimi Code(키미 코드)Kimi.com(키미닷컴)KTransformers (케이트랜스포머스)Live API(라이브 API)llama-cli (로컬 LLM CLI)llama.cpp(로컬 LLM 런타임)llama-server(로컬 LLM 서빙 서버)llama.cpp (로컬 LLM 추론 엔진)LM Studio(엘엠 스튜디오)LocalLLaMA (로컬라마)Microsoft Foundry(마이크로소프트 파운드리)MiMo Code (미모 코드)MLflow(엠엘플로우)Modal(모달)Model Garden(모델 가든)Model Studio(모델 스튜디오)Model Studio API(모델 스튜디오 API)ModelScope(모델스코프)n8n(엔에잇엔)Ollama(올라마)OpenAI API(오픈에이아이 API)OpenAI Chat Completion(오픈AI 챗 컴플리션)OpenAI SDK(오픈에이아이 SDK)OpenClaw(오픈클로)OpenRouter(오픈라우터)Perplexity (퍼플렉시티)Pinecone (파인콘)Qdrant (큐드런트)Qwen API(큐원 API)Qwen Code(큐원 코드)Qwen Studio(큐원 스튜디오)Raspberry Pi (라즈베리 파이)Replicate(레플리케이트)Responses API(리스폰스 API)SGLang(에스지랭)Studio(스튜디오)Supabase(수파베이스)Tokenizer(토크나이저)Triton Inference Server(트리톤 추론 서버)Vector Database (벡터 데이터베이스)vLLM(브이엘엘엠)VS Code(비주얼 스튜디오 코드)Weaviate(위비에이트)Weights & Biases(웨이츠 앤 바이어시스)Windsurf(윈드서프)

Activepieces (액티브피시스)agent-skills Agentic AQUA (에이전틱 아쿠아)AgentTrust Apache Airflow (아파치 에어플로)Cairn (케언)DeepGEMM(딥시크 CUDA 커널 라이브러리)Engram(엔그램)HyperFrames (하이퍼프레임스)LightRAG (라이트RAG)Manifest (매니페스트)mcp-mydisease (MyDisease.info MCP 서버)mcp-xray (Jira Xray MCP 서버)NautilusTrader (노틸러스 트레이더)NostalgiaForInfinity (노스탤지아 포 인피니티)opencodex(오픈코덱스)OpenMemory (오픈메모리)PocketBase (포켓베이스)Microsoft Qlib (마이크로소프트 Qlib)Savvly MCP (세이블리 MCP 서버)Tmax(티맥스)whisper.cpp (위스퍼.cpp)yfinance (와이파이낸스)

Nemotron-Personas-Korea (네모트론 페르소나스 코리아)PII-Masking-300k(피아이아이 마스킹 300K)

Agentic AI (에이전틱 AI)Agentic Coding(에이전틱 코딩)benchmark (벤치마크)Chain-of-Thought(연쇄 추론 유도)DeepSeek Sparse Attention (딥시크 스파스 어텐션)Distillation (지식 증류)Eval(평가)Fine-tuning (파인튜닝)Function Calling(함수 호출)Grounding (그라운딩)Guardrail(가드레일)--kv-cache-dtype bfloat16 (BF16 KV 캐시 저장 형식 플래그)Prompt Caching(프롬프트 캐싱)Prompt Engineering(프롬프트 엔지니어링)Quantization (양자화)RAG (검색 증강 생성)reasoning.effort (리즈닝 이포트)Red Teaming (레드 팀잉)RLHF(인간 피드백 기반 강화학습)Speech to Text(음성 인식)Synthetic Data(합성 데이터)Text to Speech(음성 합성)Tool Use(도구 사용)Training(학습)Vibe Coding(바이브 코딩)

Agent Platform(에이전트 플랫폼)Agent Runtime(에이전트 런타임)AutoGen(오토젠)Claude Managed Agents(클로드 매니지드 에이전트)CrewAI (크루에이아이)DeepSpeed(딥스피드)GGUF(GGUF 모델 파일 형식)Gradio (그라디오)JAX (잭스)Kubeflow(쿠브플로우)LangChain (랭체인)LangGraph(랭그래프)LlamaIndex (라마인덱스)llm-server(로컬 llama.cpp 서빙 자동화 프레임워크)MCP (모델 컨텍스트 프로토콜)MCP server (MCP 서버)MLX(엠엘엑스)ONNX(오닉스)PyTorch(파이토치)Ray(레이)Runtime(런타임)Streamlit(스트림릿)TensorFlow (텐서플로)TensorRT Edge-LLM(텐서RT 엣지 LLM)Transformer Engine(트랜스포머 엔진)Vercel AI SDK(버셀 AI SDK)x402 (에이전트 micropayment 프로토콜)

Alibaba Qwen (알리바바 큐원)Anthropic Claude(앤트로픽 클로드)ChatGPT-5.2 Instant (챗지피티 5.2 인스턴트)ChatGPT-5.2 Pro (챗지피티 5.2 프로)Claude(클로드)Claude Fable 5(클로드 페이블 5)Claude Opus(클로드 오퍼스)Claude Opus 4.5(클로드 오퍼스 4.5)Claude Opus 4.6(클로드 오퍼스 4.6)Claude Opus 4.7(클로드 오퍼스 4.7)Claude Opus 4.6(클로드 오퍼스 4.6)Claude Sonnet (클로드 소넷)Claude Sonnet 4.5(클로드 소네트 4.5)DALL-E (달리)DeepSeek (딥시크)deepseek-chat (딥시크 챗)DeepSeek R1(딥시크 R1)DeepSeek Reasoner (딥시크 리저너)DeepSeek-V3.2-Speciale (딥시크 V3.2-Speciale)DeepSeek V4 (딥시크 V4)FLUX.1 (플럭스 원)Gemini(제미니)Gemini 2.5 (제미나이 2.5)Gemini 2.5 Flash (제미나이 2.5 플래시)Gemini 2.5 Pro (제미나이 2.5 프로)Gemini Embedding(제미니 임베딩)Gemini Embedding 2(제미니 임베딩 2)Gemini Omni(제미니 옴니)Gemma (젬마)Gemma 3(젬마 3)Gemma 4(젬마 4)Gemma-4-26B-A4B-NVFP4(젬마 4 26B A4B NVFP4)GLM (지엘엠)GLM 5(지엘엠 5)GLM 5.1(지엘엠 5.1)GPT-2 (지피티-2)GPT-3 (지피티-3)GPT-3.5 (지피티-3.5)GPT-4 (지피티-4)GPT-4.1 (지피티 4.1)GPT-4o(지피티-4o)gpt-4o-mini (지피티-4o 미니)gpt-4o-mini-2024-07-18 스냅샷 GPT-5 (지피티-5)GPT-5.5 Instant (지피티 5.5 인스턴트)GPT-5-Codex (지피티 5 코덱스)GPT-5.1 (지피티 5.1)gpt-5.1-chat-latest (지피티 5.1 챗 레이티스트)GPT-5.1 Codex (지피티 5.1 코덱스)GPT-5.1 Codex mini (지피티 5.1 코덱스 미니)gpt-5.2 gpt-5.2-2025-12-11 (GPT-5.2 고정 스냅샷)gpt-5.2-chat-latest (지피티 5.2 챗 레이티스트)GPT-5.2 Pro (지피티 5.2 프로)GPT-5.2 Pro 2025-12-11 스냅샷 (지피티 5.2 프로 고정 버전)GPT-5.2 Thinking (지피티 5.2 씽킹)GPT-5.3 (지피티 5.3)gpt-5.3-chat-latest (지피티 5.3 챗 레이티스트)GPT-5.3 Instant (GPT-5.3 인스턴트)GPT-5.4 (지피티 5.4)gpt-5.4-2026-03-05 (GPT-5.4 고정 스냅샷)GPT-5.4 API (지피티 5.4 API)GPT-5.4-Cyber (지피티 5.4 사이버)GPT-5.4 Mini (지피티 5.4 미니)GPT-5.4 Pro (지피티 5.4 프로)GPT-5.4 Thinking (지피티 5.4 씽킹)GPT-5.5 (지피티 5.5)GPT-5.5 Instant (지피티 5.5 인스턴트)GPT-5.5 Pro (GPT-5.5 프로)GPT-5.5 Thinking (지피티 5.5 씽킹)GPT Image(지피티 이미지)gpt-image-2 (지피티 이미지 2)gpt-oss(지피티 오에스에스)GPT-OSS 20B(오픈 웨이트 모델)GPT-Rosalind(지피티-로절린드)Grok (그록)Imagen (이마젠)K2.5 (키미 K2.5)Kimi(키미)Kimi K2 (키미 K2)Kimi K2.6 (키미 K2.6)Llama (라마)Lyria (리리아)M2.7(엠투점칠)MiMo-V2.5-ASR (샤오미 음성인식 모델)MiniMax M2.7(미니맥스 M2.7)Mistral(미스트랄 모델 계열)Mistral AI (미스트랄 AI)Mixtral(믹스트랄)model="deepseek-reasoner" (딥시크 리저너 모델값)Mythos Preview (마이토스 프리뷰)Nano Banana(나노 바나나)Nemotron 3 Nano Omni (네모트론 3 나노 옴니)Nemotron OCR v2 (네모트론 OCR v2)o1(OpenAI 추론 모델)o3 (오쓰리)Phi (파이)Privacy Filter(프라이버시 필터)Qwen (큐원)큐웬 3.5(Qwen 3.5)Qwen3 (큐원3)Qwen3-14B (큐원3 14B)Qwen3-14B-GGUF (큐원3 14B GGUF)Qwen3-30B-A3B (큐웬3 30B A3B)Qwen3.5-122B-A10B (122B MoE 대체형)Qwen3.5-27B (큐웬3.5-27B)Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled (쿠엔3.5-27B 클로드 4.6 오퍼스 리즈닝 디스틸드)Qwen3.5-35B-A3B (큐원 3.5-35B-A3B)Qwen3.5-9B (큐원 3.5-9B)Qwen3.5-9B BF16 (큐원 3.5-9B BF16)Qwen3.6 (큐원 3.6)Qwen3.6-27B (큐원 3.6-27B)Qwen3.6 27B FP8 (큐원 3.6 27B FP8)Qwen3.6-35B-A3B (큐원 3.6-35B-A3B)Sora (소라)Stable Diffusion(스테이블 디퓨전)DeepSeek V2.5 (딥시크 V2.5)DeepSeek V3.2 (딥시크 V3.2)V3.2-Speciale (딥시크 V3.2-Speciale)V4-Flash (딥시크 V4-Flash)V4 Pro (딥시크 V4 프로)Veo (비오)Whisper (위스퍼)

24GB GPU(24GB VRAM 카드)A3B (활성 파라미터 3B 표기)A4B(활성 파라미터 4B)A4B MoE(A4B 전문가 혼합 표기)A4B NVFP4(A4B 엔브이FP4)AI Agent (AI 에이전트)Google Cloud Agent Gateway (에이전트 게이트웨이)Agent Identity(에이전트 신원)Agent Observability(에이전트 관측성)AI Mode (AI 모드)Alignment(정렬)안드로이드(Android)Anthropic(앤트로픽)API (애플리케이션 프로그래밍 인터페이스)Apple Silicon (애플 실리콘)Attention (어텐션)AWS Bedrock(AWS 베드록)Bedrock(베드록)BF16 (브레인 플로팅 포인트 16)BF16 KV (BF16 키-값 캐시)Blackwell (NVIDIA GPU 아키텍처)BrowseComp(브라우즈컴프)chat-latest (챗 레이티스트)ChatGPT Instant (챗지피티 인스턴트)CLI(명령줄 인터페이스)Cloud (클라우드)Coding Agent(코딩 에이전트)Context(컨텍스트)Context Window(컨텍스트 윈도우)CUDA(쿠다)CUDA 12.9(쿠다 12.9)dataset(데이터셋)Deep Research (딥 리서치)Developer Tools(개발자 도구)DFlash (디플래시)Diffusion Model(확산 모델)E2B (이투비)E4B (이포비)Embedding (임베딩)Enterprise(엔터프라이즈)Enterprise AI(엔터프라이즈 AI)F1 96(에프원 96 표기)F32 (32비트 부동소수점)File Search(파일 검색)FIM completion(중간 채우기 완성)Flash(플래시)FP16 (반정밀도 부동소수점)FP4 (4비트 부동소수점 포맷)FP4 Indexer(FP4 인덱서)FP8 (8비트 부동소수점 포맷)FP8 E4M3(8비트 E4M3 포맷)FP8 KV (FP8 키-값 캐시)FP8 양자화 가중치 FP8 Tensor Core(FP8 텐서 코어)Gated DeltaNet(게이티드 델타넷)GDDR7(그래픽 DRAM 7세대)GDDR7 ECC(오류 수정 GDDR7 메모리)Gemini Intelligence (제미니 인텔리전스)GPQA Diamond (지피큐에이 다이아몬드)GPT (생성형 사전학습 트랜스포머)GPU (그래픽 처리 장치)GPU VRAM(GPU 전용 비디오 메모리)GUI(그래픽 사용자 인터페이스)Hallucination (환각)HTTP API(HTTP 호출 인터페이스)Hugging Face Hub(허깅 페이스 허브)HumanEval(휴먼이밸)IDE (통합 개발 환경)Image Generation(이미지 생성)Inference (추론)Instant(인스턴트)INT4 (4비트 정수 정밀도)INT8 (8비트 정수 정밀도)K2.6 (키미 K2.6 줄임말)KV Cache (KV 캐시)Language Model (언어 모델)Linux(리눅스)LiveCodeBench(라이브코드벤치)LLM (거대 언어 모델)Local LLM (로컬 LLM)Long Context (긴 문맥)M5 Max(M5 맥스)M5 Max 64GB(M5 맥스 64GB)Mac(맥)Managed Agents(관리형 에이전트)Mega MoE(메가 MoE)Memory(메모리)Mixture of Experts(전문가 혼합)MMLU(엠엠엘유)MMLU Pro(엠엠엘유 프로)모델 Multimodal AI(멀티모달 AI)Mythos (마이토스)Nano Omni (나노 옴니)Nemotron(네모트론)NL2Repo 39.8(엔엘투레포 39.8)Nous Research (누스 리서치)NVFP4 (NVIDIA FP4 포맷)NVIDIA GPU(엔비디아 GPU)NVLink(엔비디아 GPU 인터커넥트)OAuth(권한 위임)OCR (광학 문자 인식)On-device AI(온디바이스)Open-weight(오픈 웨이트)openai-agents>=0.14.0(오픈AI 에이전트 SDK 0.14.0 이상)OpenAI-compatible(OpenAI 호환)p95(95번째 백분위 지연시간)Personal Intelligence(퍼스널 인텔리전스)PrivateLink(프라이빗링크)Project Glasswing (프로젝트 글래스윙)PyPI (파이썬 패키지 인덱스)Python (파이썬)Q8 KV (Q8 키-값 캐시)Qwen3.6-35B-A3B Benchmarks (큐웬3.6 벤치마크)RAM (시스템 메모리)Reasoning Model (추론 모델)reasoning content(추론 내용)Reasoning Model (추론 모델)RTX PRO (엔비디아 전문가용 GPU 계열)SaaS(서비스형 소프트웨어)Search (검색)Small Language Model(소형 언어 모델)SWE-bench(깃허브 이슈 해결 벤치마크)SWE-Bench Pro(소프트웨어 엔지니어링 에이전트 벤치마크)SWE-bench Verified (스위벤치 베리파이드)SWE Multilingual(다국어 소프트웨어 엔지니어링 벤치마크 표기)SWE-Pro(에스더블유이 프로 표기)SwiGLU(스위글루)Tensor Core(텐서 코어)Terminal-Bench (터미널 벤치)Terminal-Bench 2.0(터미널 벤치 2.0)Thinking (씽킹)tok/s(초당 토큰)Token (토큰)Token Plan(토큰 플랜)TPU(텐서 처리 장치)Transformer (트랜스포머)Trusted Access (신뢰 기반 접근)TypeScript(타입스크립트)Vertex AI (버텍스 AI)VIBE-Pro(바이브 프로)Video Generation(영상 생성)Vision-Language Model (비전-언어 모델)VRAM(비디오 메모리)Model Weights(웨이트)Windows(윈도우)Word(워드 문서)Xiaomi MiMo(샤오미 미모)YaRN (야른)

한 줄 정의

DeepGEMM은 DeepSeek가 공개한 CUDA 기반 Tensor Core 커널 라이브러리야. GEMM은 모델 안에서 계속 반복되는 행렬 곱셈 작업이고, DeepGEMM은 이 계산을 NVIDIA GPU의 커널 경로에서 더 직접 다루게 해.

공식 README는 DeepGEMM을 FP8, FP4, BF16 GEMM, Mega MoE, MQA scoring, HyperConnection까지 한 CUDA 코드베이스에 모은 라이브러리로 설명해. 그래서 기사에서 DeepGEMM이 보이면 새 모델 이름보다 “행렬 곱셈과 MoE 실행 경로를 어느 GPU 커널로 돌리나”를 먼저 보면 돼.

실제로 무엇을 하나

DeepGEMM은 큰 LLM에서 반복되는 행렬 곱셈 커널을 제공해. 기본 인터페이스는 D = C + A @ B 형태의 GEMM이고, FP8 dense GEMM, grouped GEMM, masked grouped GEMM처럼 전문가 혼합 모델에서 자주 나오는 모양을 따로 다뤄.

설치할 때 모든 CUDA 커널을 미리 컴파일하는 방식은 아니야. README는 커널이 가벼운 JIT 모듈을 통해 runtime에 컴파일된다고 적어. 실무에서는 이 말이 꽤 중요해. “pip 설치가 됐다”에서 끝나는 게 아니라, 실제 입력 모양이 들어왔을 때 어떤 커널이 컴파일되고 캐시되는지, 처음 호출 지연이 얼마인지, 같은 모양을 반복할 때 p95 지연이 안정되는지를 봐야 하거든.

요구 조건은 꽤 좁아. README 기준으로 NVIDIA SM90 또는 SM100 GPU, Python 3.8+, C++20 compiler, PyTorch 2.1+, CUTLASS 4.0+가 필요해. CUDA Toolkit은 SM90에서 12.3+이고 12.9+를 권장하며, SM100에서는 12.9+가 필요해. 일반 앱 서버나 관리형 API만 쓰는 팀이라면 이 조건부터 이미 멀 수 있어.

왜 중요한가

DeepGEMM이 중요한 이유는 모델 이름을 바꾸지 않고도 추론 병목이 바뀔 수 있기 때문이야. 같은 가중치라도 GEMM 커널, 정밀도, 런타임, GPU 세대가 달라지면 처리량과 지연 시간이 달라질 수 있어.

특히 MoE에서는 토큰을 전문가에게 보내고, 전문가별 linear 연산을 돌리고, 다시 합치는 과정에서 커널 호출과 GPU 간 통신이 섞여. 2026년 4월 PR #304는 Mega MoE가 dispatch, linear 1, SwiGLU, linear 2, combine을 하나의 mega-kernel로 묶고 NVLink 통신과 tensor core 계산을 겹친다고 설명해. 이건 “모델이 더 똑똑해졌다”가 아니라 GPU가 기다리는 시간을 줄이려는 인프라 변경이야.

숫자는 출처 맥락을 나눠서 읽어야 해. README의 up to 10x NVRTC 컴파일 속도 항목은 2025년 5월 7일 뉴스이고, H800 1550 TFLOPS 항목은 2025년 4월 18일 뉴스야. 2026년 4월 공개 릴리스 숫자가 아니야. 2026년 4월 24일 PR #316의 Mega MoE 표도 DeepSeek 저장소 작성자가 올린 EP8, 8 ranks 평균 커널 벤치마크라서, 내 서비스 전체 지연시간이 같은 배율로 줄어든다고 보면 안 돼.

도입 전에 볼 조건

지원 GPU부터 봐. SM90이나 SM100 계열이 아니고 CUDA Toolkit, PyTorch, CUTLASS 조건을 맞출 수 없다면 DeepGEMM을 시험할 이유가 약해.
내 병목이 정말 GEMM인지 재야 해. p50/p95 지연, tokens/sec, peak memory, DRAM 대역, GPU utilization을 기존 런타임과 같은 입력으로 비교해야 해.
작은 배치와 긴 입력을 따로 재야 해. PR #316도 rank당 1, 512, 8192, 32768 토큰 조건을 나눠 표로 냈어. 한 조건에서 빨라도 다른 조건에서 바로 이긴다고 보면 곤란해.
JIT 첫 호출 지연과 캐시 위치를 확인해. DG_JIT_CACHE_DIR, DG_JIT_USE_NVRTC, DG_JIT_PRINT_LOAD_TIME 같은 설정은 개발 편의가 아니라 운영 지연과 디버깅에 직접 닿아 있어.
모델 품질과 커널 성능을 섞지 마. FP8이나 FP4 경로를 쓰면 정확도 회귀, NaN/Inf, 출력 품질도 같은 평가셋에서 따로 확인해야 해.

반대로 일반 챗봇 앱, 사내 자동화, 관리형 모델 API 호출처럼 GPU 커널을 직접 운영하지 않는 흐름에서는 DeepGEMM을 바로 적용할 일이 거의 없어. 이때는 DeepGEMM보다 모델 가격, 컨텍스트 길이, API 안정성이 먼저야.

헷갈리기 쉬운 경계

DeepGEMM과 CUDA는 같은 층위가 아니야. CUDA는 NVIDIA GPU에서 코드를 실행하는 플랫폼이고, DeepGEMM은 그 위에서 특정 GEMM·MoE·MQA scoring 커널을 제공하는 저장소야.

CUTLASS나 CuTe와도 다르게 읽는 편이 좋아. README는 DeepGEMM이 CUTLASS와 CuTe의 일부 개념에서 영감을 받았지만, 무거운 template와 algebra 의존을 피하고 제한된 핵심 kernel function으로 단순하게 유지한다고 설명해. 그러니까 DeepGEMM은 범용 CUDA 교육서라기보다, DeepSeek가 쓰는 LLM 계산 모양에 가까운 커널 묶음에 더 가까워.

BF16, FP8, FP4는 정밀도 선택이고, DeepGEMM은 그 정밀도 경로를 실제 커널로 돌리는 라이브러리야. Attention이나 MQA scoring은 토큰 관계를 계산하는 작업이고, DeepGEMM은 그중 일부 scoring 경로를 커널로 제공해. DeepSeek R1 같은 모델 페이지와도 분리해야 해. PR #304가 직접 적었듯이 2026년 4월 릴리스는 DeepGEMM 개발 업데이트이지 내부 모델 릴리스가 아니야.

이 항목을 참조하는 위키

📰 관련 기사 (1)

DeepSeek DeepGEMM, Mega MoE와 FP4 Indexer로 대규모 업데이트2026-04-18🔥76점 · 출처 3

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-06 KST

검증 생성: AI + 편집 검토 · 2026-05-06 상태: 통과

통과 원문 대조 검증 출처 5

DeepGEMM을 새 모델이나 추상 개념이 아니라, DeepSeek의 실제 CUDA 커널 라이브러리로 설명했는지 1차 출처와 맞췄어.

독자 문제 대조: 첫 문장부터 GEMM을 행렬 곱셈 작업으로 풀고, DeepGEMM은 그 작업을 NVIDIA CUDA 커널 경로에서 최적화하는 라이브러리라고 분리했어.
README는 DeepGEMM을 FP8, FP4, BF16 GEMM, Mega MoE, MQA scoring, HyperConnection을 한 CUDA codebase에 모은 Tensor Core kernel library로 설명해.
README는 모든 커널이 lightweight JIT module로 runtime에 컴파일되며 설치 과정에서 CUDA compilation이 필요하지 않다고 설명해.
PR #304는 2026년 4월 공개 릴리스가 Mega MoE, FP4 Indexer, FP8 x FP4 GEMM, PDL, faster JIT compilation을 포함한다고 적어.
PR #304의 additional notes는 이 릴리스가 DeepGEMM 개발과만 관련 있고 internal model release와 무관하다고 못 박아.

통과 교차 검증 검증 출처 5

GitHub README, PR 두 건, PANews, Sina Tech를 나눠 보고 공식 코드 업데이트와 보도 해석이 어디까지 겹치는지 확인했어.

비교 기준: README는 라이브러리 범위와 요구 조건, PR #304는 2026년 4월 기능 추가, PR #316은 Mega MoE 벤치마크, PANews와 Sina는 외부 보도 확인용으로 나눠 봤어.
PANews는 2026년 4월 16일 보도에서 Mega MoE와 FP4 Indexer가 추가됐고, FP8 x FP4 MoE, EP≤8, PyTorch≥2.9 제한이 있다고 전해.
Sina Tech는 DeepSeek가 모델이 아니라 DeepGEMM 코드베이스를 업데이트했다고 설명하고, dispatch, linear, SwiGLU, combine을 하나의 mega-kernel로 fuse한다고 풀어.
README와 PR #304 모두 Mega MoE를 NVLink communication과 tensor core computation을 겹치는 fused MoE 경로로 설명해.
PR #316은 벤치마크 표를 추가했지만, 그 숫자는 DeepSeek 저장소 안의 작성자 측정값이라 독립 재현값처럼 확대하지 않았어.

통과 수치 검증 검증 출처 5

요구 조건, 날짜, 공개 벤치마크, 저장소 숫자를 서로 다른 출처 맥락으로 분리해 확인했어.

README 요구 조건은 NVIDIA SM90 또는 SM100 GPU, Python 3.8 이상, C++20 compiler, PyTorch 2.1 이상, CUTLASS 4.0 이상이야.
CUDA Toolkit 조건은 SM90에서 12.3 이상이고 12.9 이상을 권장하며, SM100은 12.9 이상으로 적혀 있어.
README의 `up to 10x` NVRTC compilation speedup은 2025-05-07 뉴스 항목이고, H800 `1550 TFLOPS`는 2025-04-18 뉴스 항목이야. 둘 다 2026-04-16 공개 릴리스 숫자로 쓰지 않았어.
PR #316의 Mega MoE 표는 EP8, 8 ranks 평균 조건에서 DeepSeek-V4-Flash legacy 대비 1.56x~1.96x, DeepSeek-V4-Pro legacy 대비 1.50x~1.61x speedup을 적어.
GitHub UI는 2026-05-06 확인 시점에 Star 7.2k, Fork 966, Issues 45를 보여 줬고, releases 페이지는 v2.1.1.post3을 Latest로 표시해.

통과 비판 검토 검증 출처 5

DeepGEMM을 범용 성능 보장이나 DeepSeek 새 모델 신호로 과장하지 않도록 도입 조건과 중단 조건을 따로 세웠어.

지원 GPU가 SM90/SM100이 아니거나 CUDA/PyTorch/CUTLASS 조건을 맞추지 못하면, DeepGEMM은 후보에서 빼는 게 맞아.
GEMM이나 MoE 커널이 실제 병목인지 p95 지연, tokens/sec, peak memory, DRAM 대역, GPU utilization으로 재지 못하면 도입 이유가 약해.
Mega MoE의 공개 숫자는 legacy 대비 kernel benchmark라서 전체 서비스 지연시간, 모델 품질, 독립 재현 성능을 직접 증명하지 않아.
Sina Tech는 외부 해설과 추측을 포함하므로, 공식 기능 범위는 GitHub README와 PR #304/#316을 우선했어.
DeepGEMM은 CUTLASS와 CuTe에서 아이디어를 빌리지만, 그 둘을 대체하는 범용 GPU 프로그래밍 프레임워크라고 쓰지는 않았어.

이 페이지의 결론은 DeepGEMM을 바로 적용하라는 말이 아니라, 지원 하드웨어와 측정 가능한 GEMM 병목이 있을 때만 작은 A/B로 시험하라는 쪽이야.

출처: GitHub repository , DeepGEMM releases , DeepGEMM PR #304 — Public release 26/04 , DeepGEMM PR #316 — Mega MoE benchmarks , PANews — DeepGEMM major updates , Sina Tech — DeepGEMM 업데이트