검증 생성: AI + 편집 검토 · 2026-05-06 상태: 통과
통과 원문 대조
성능 수치는 Reddit 단일 보고로 낮추고, 모델 카드와 GPU 사양은 별도 공식 출처로 분리했어.
- RTX PRO 5000 Blackwell 48GB 단일 GPU + Qwen3.6 27B FP8 + 196,608 안팎 BF16 KV: 원본 Reddit 사용자 보고
- Qwen3.6-27B-FP8 모델 존재와 FP8 배포 경로: Hugging Face 모델 카드. 27B는 모델명 표기이고, 실제 파라미터 표기는 모델 카드 기준으로 다시 확인해야 해
- 27GB 모델 가중치 + 19~21GB BF16 KV 캐시: 원본 Reddit 사용자 보고. StartupFortune은 이를 해설한 2차 글이라 독립 성능 검증으로 세지 않아
- 60-90 토큰/초 범위와 약 80 토큰/초 대표값: 독립 재측정이 아니라 특정 사용자 vLLM 설정 기반 보고
- RTX PRO 5000 Blackwell의 48GB GDDR7 옵션: NVIDIA 공식 제품 페이지
통과 교차 검증 검증 출처 4
Reddit, Hugging Face, StartupFortune, NVIDIA를 역할별로 나눠 봤어.
- Reddit r/LocalLLaMA: 원본 측정 게시물이며 TPS와 196,608 토큰 보고의 1차 출처
- Hugging Face: Qwen3.6-27B-FP8 모델 카드 존재를 확인하는 공식 모델 출처
- StartupFortune: 원본 게시물을 해설한 2차 분석이지 독립 벤치마크는 아냐
- NVIDIA: RTX PRO 5000 Blackwell 48GB GDDR7 사양 확인용 공식 출처
통과 수치 검증
메모리 분배와 토큰 처리 속도는 단일 사용자 보고로 낮춰 보고, GPU 사양은 NVIDIA 공식 자료 기준으로 분리했어.
- 196,608 안팎의 장문맥 BF16 KV 캐시
- 60-90 TPS 범위, 약 80 TPS 대표값(특정 vLLM 설정 기반 보고)
- 27GB 모델 + 19~21GB KV (총 ~48GB 활용): 원본 Reddit 사용자 보고 기준
- RTX PRO 5000 Blackwell 48GB GDDR7 옵션: NVIDIA 공식 제품 페이지
통과 비판 검토
단일 사용자 측정 + 워크스테이션 GPU + KV 양자화 없는 단일 시나리오 — 한계 다수.
- 단일 커뮤니티 사용자 측정이라 다른 환경(배치 크기, 동시 요청)에서는 TPS가 크게 떨어질 수 있어
- RTX PRO 5000 Blackwell 48GB는 워크스테이션 GPU라 서버급 H100·H200과 다른 비용대지만, 실제 구매가는 지역·공급사별로 따로 확인해야 해
- Qwen3.6 27B는 dense 모델이라 같은 메모리 안에서 더 큰 MoE 모델을 돌리는 것보단 성능 한계 존재
- BF16 KV 캐시 유지는 정확도 보존이 목적인데, 실제 200K 입력에서 응답 품질이 8K·32K 대비 어떤지 별도 측정 안 돼 있어