한 줄 정의

Qwen3.5-9B BF16 (큐원 3.5-9B BF16)은 Qwen3.5-9B를 BF16 정밀도로, 대개 MLX SafeTensors 같은 경로에 올린 풀프리시전 실행 조건이야. 새 모델 계열이라기보다 “원본 9B 모델을 양자화하지 않고 bfloat16으로 돌린다”는 표기로 읽는 편이 맞아.

공식 Qwen/Qwen3.5-9B 모델 카드는 9B 파라미터, 32개 레이어, 262,144 토큰 기본 컨텍스트를 제시해. MLX BF16 모델 카드는 여기에 Apple Silicon 실행을 위한 파일 형식과 런타임 조건이 붙은 변환본이야.

이 모델로 무엇을 할 수 있나

BF16은 16비트 부동소수점이라 FP32보다 저장·전송 단위가 작고, 4bit·8bit 양자화보다 원본 값 표현을 덜 바꿔. 그래서 Qwen3.5-9B BF16은 품질 확인용 기준선으로 쓰기 좋아. 먼저 BF16 기준으로 답변 품질과 지연시간을 보고, 메모리가 부족하면 8bit나 4bit 변환본으로 내려가는 식이야.

MLX Community의 Qwen3.5-9B-MLX-bf16 카드bfloat16, no quantization, MLX SafeTensors, mlx-vlm, 약 18GB disk size를 적어. Hugging Face 파일 정보에는 9B params, BF16, MLX, 18.8GB가 붙어 있어. 이 숫자는 모델 파일 쪽 숫자고, 실제 실행에는 KV 캐시, 이미지 전처리, 배치, 생성 길이가 더 붙어.

Apple Silicon에서 돌릴 때는 Metal과 MLX 경로가 중요해. 같은 모델이라도 Mac 통합 메모리 용량, CPU-GPU 동기화, vision encoder 사용 여부에 따라 체감이 달라져. CUDA 서버의 vLLM 숫자와 Mac의 MLX 숫자를 같은 표에 넣을 수는 있지만, 실행 조건은 따로 적어야 해.

예를 들어 세 가지 장면에 잘 맞아.

  • 문서 스크린샷 20장처럼 이미지가 섞인 입력을 mlx-vlm으로 빠르게 확인할 수 있어.
  • 사내 프롬프트 30개를 BF16 기준으로 먼저 돌려 보고 4bit 변환본의 답변 회귀를 비교할 수 있어.
  • DFlash나 다른 추측 디코딩을 붙일 때 대상 모델이 아니라 후보 생성·검증 파이프라인 조건을 분리해서 잴 수 있어.

왜 중요한가

이 항목이 중요한 이유는 “9B면 가볍겠지”와 “BF16이면 원본 품질에 가깝겠지”가 둘 다 반만 맞기 때문이야. 9B 모델이라도 BF16 파일이 18GB 안팎이면 24GB 장비에서는 여유가 크지 않아. 긴 컨텍스트를 열거나 이미지 입력을 켜면 KV 캐시와 중간 버퍼가 바로 계산에 들어와.

반대로 BF16은 모델 품질을 확인하는 기준선으로는 꽤 쓸모가 있어. 4bit 변환본에서 답이 이상해졌을 때 원본 모델 문제인지, 양자화 문제인지, 런타임 문제인지 가르려면 BF16 기준선이 있어야 해. 그래서 실무에서는 아래 순서가 깔끔해.

  • 같은 prompt 묶음으로 BF16과 8bit·4bit 변환본을 나란히 돌려.
  • 최대 메모리, p95 지연시간, tokens/sec, 답변 품질 회귀를 같은 표에 둬.
  • Mac MLX, 서버 vLLM, 서버 SGLang을 비교할 때는 프롬프트를 먼저 읽는 구간(prefill)을 포함했는지 따로 적어.
  • 이미지 입력을 켠 결과와 텍스트 전용 결과를 섞지 마.

DFlash 같은 추측 디코딩 실험에서도 이 구분이 필요해. Reddit 구현 글은 M5 Max 64GB, MLX, CUDA 없음 조건에서 Qwen3.5-9B BF16을 1024토큰 생성 기준 85 tok/s로 보고했어. 하지만 그 값은 프롬프트를 읽는 구간을 뺀 생성 구간만 잰 값이야. 긴 코드베이스를 읽는 Agentic Coding 작업에서는 프롬프트 처리 시간이 다시 중요해져.

같이 보면 좋은 모델

  • Qwen3.5-9B: BF16 변환본의 원본 모델 스펙과 긴 컨텍스트 판단을 볼 때 기준이 돼.
  • Qwen3.5-27B: 9B BF16 품질이 부족할 때 더 큰 dense 계열로 올릴지 비교할 수 있어.
  • Qwen3.5-35B-A3B: 같은 Qwen 3.5 계열 안에서 활성 파라미터를 줄인 MoE 후보와 비교할 때 필요해.

주의해서 볼 점

첫째, BF16은 “빠른 모드”가 아니야. 메모리 대역폭이나 커널 지원이 맞으면 도움이 되지만, 4bit target보다 더 큰 파일을 쓰는 선택이기도 해. 품질 기준선으로는 좋고, 작은 장비의 기본 배포값으로는 무거울 수 있어.

둘째, MLX 변환본이 있다는 말은 모든 앱에서 바로 같은 품질과 속도가 나온다는 뜻이 아니야. mlx-vlm, mlx-lm, LM Studio, vLLM, SGLang이 각각 모델 로딩, 이미지 입력, thinking 모드, 긴 컨텍스트를 다루는 방식이 다를 수 있어.

셋째, Apple Silicon 숫자는 조건표와 같이 읽어야 해. M5 Max 64GB에서 나온 85 tok/s를 M1, M2, M3, 24GB Mac, 서버 GPU로 그대로 옮기면 안 돼. 모델 파일 크기, 통합 메모리, prefill, 생성 길이, DFlash 사용 여부가 모두 다른 변수야.

마지막으로, 이 페이지는 원본 Qwen3.5-9B의 성능 순위를 새로 매기는 문서가 아니야. 원본 모델의 구조와 컨텍스트 판단은 Qwen3.5-9B 쪽에서 보고, 여기서는 BF16/MLX 실행 조건과 양자화기준선으로 쓸지에 집중하면 돼.