무슨 일이 있었나

r/LocalLLaMA“I hate this group but not literally” 라는 제목의 글이 올라왔다. 직장에서 AI를 처음 접한 뒤 로컬에서 직접 실행해보고 싶었는데, M3 Ultra 96GB로 시작했지만 원하는 모델을 돌리기엔 부족했다. 이후 256GB/512GB 리퍼 스튜디오를 거쳐, VRAM 96GB짜리 RTX Pro 6000 Blackwell이 그날 도착했다는 내용이야. 93개 댓글이 달렸고, 대부분은 비슷한 경험을 공유했다.

왜 이런 패턴이 반복되나

  • 모델 크기 기대치: 로컬 실행 수요 상위 모델은 70B~235B 파라미터 규모야. 원하는 품질을 VRAM에 올리려면 256GB 이상을 목표로 잡는 경우가 많다.
  • 양자화 한계: Q4/Q8 양자화로도 커버가 안 되는 작업 품질을 원하면 더 큰 풀 정밀도 모델이 필요해진다.
  • 기준점이 올라가면 내려오기 어렵다: 빠른 속도와 큰 컨텍스트를 써보면 이전 수준으로 돌아가기 힘들다는 댓글이 주를 이뤘다.

어떤 의미인가

RTX Pro 6000 Blackwell은 원래 그래픽 워크스테이션 시장 제품이야. 그런데 VRAM 96GB 때문에 AI 추론용으로 쓰이는 경우가 빠르게 늘고 있어. 로컬 LLM 커뮤니티가 소비자용 GPUApple Silicon 영역을 넘어 워크스테이션급 장비로 가고 있다는 신호로 볼 수 있어.

처음 시작하는 입장이라면 이 사례는 극단적인 쪽이야. 어떤 모델을, 어떤 속도로, 어떤 작업에 쓰고 싶은지부터 정리하고 하드웨어를 잡는 게 낫다.