무슨 일이 있었나
r/LocalLLaMA에 한 스레드가 올라왔어. “AI 에이전트 소프트웨어 개발용으로 RTX 5090이랑 M5 Max 128GB 중 뭘 사야 하냐”는 질문이야. 142개의 댓글이 달렸는데, 게시자가 직접 쓴 마지막 줄이 있어: “140개 댓글 읽었는데 아직도 모르겠다.”
핵심 비교 포인트는 이거야.
- RTX 5090: Qwen3.6 27B 기준 M5 Max 대비 약 3배 빠른 추론 속도. 코드를 빠르게 반복할 때 강점.
- M5 Max 128GB: 속도는 느리지만 큰 메모리로 더 큰 모델 또는 더 긴 컨텍스트를 처리할 수 있어.
왜 이게 쟁점인가
로컬 LLM 에이전트 개발에서 병목이 어디냐에 따라 답이 달라지거든. 짧은 반복 속도가 중요하면 RTX 5090, 대용량 모델을 메모리에 통째로 올려야 하면 M5 Max가 맞아.
Qwen3.6 27B는 요즘 로컬에서 쓸 수 있는 현실적인 에이전트 모델로 자주 언급되는데, 이 모델 기준으로 3x 차이가 나는 건 개발 사이클 속도에서 체감 차이가 꽤 커.
판단 기준
3x 속도 차이는 커뮤니티 측정값이라서 공식 벤치마크는 아니야. 그리고 이 비교는 어느 쪽이 절대적으로 낫다는 결론이 없어 — 내 워크로드에 맞는 선택이지. 140개 댓글이 결론에 못 도달한 게 그 증거고.