무슨 일이 일어났나

엔비디아 블랙웰 시스템이 대규모로 깔리면서 AI 추론 비용이 이전 호퍼 세대보다 최대 10배 떨어졌어. 추론은 이미 학습된 모델이 답을 내놓는 단계인데, 여기 드는 단가가 토큰 가격의 바닥을 정하거든. 생산 벤치마크 기준으로 B200은 백만 토큰당 0.02달러 수준까지 내려왔어. Business Insider는 이 흐름을 두고 토큰 가격 하락이 올 수 있다고 봤어.

값이 왜 내려가나

하드웨어 세대 교체랑 정밀도 최적화가 같이 작동해. 한 공급사 사례가 분명해. DeepInfra는 백만 토큰 단가를 호퍼에서 20센트였던 걸 블랙웰로 10센트까지 낮추고, NVFP4라는 더 낮은 정밀도 연산을 켜서 5센트까지 내렸어. 합치면 4배 절감이야. NVFP4는 숫자를 더 적은 비트로 다뤄서 같은 GPU로 더 많은 토큰을 뽑아내는 방식이라고 보면 돼.

여기서 끝이 아니야. 엔비디아는 하반기에 베라 루빈 칩을 내놓는데, 추론 토큰 비용을 블랙웰보다 또 최대 10배 낮춘다고 했어. 단가 바닥이 계속 내려가는 구조야.

어떤 의미인가

추론 원가가 내려가면 AI 서비스 회사가 토큰 가격을 내릴 여력이 생겨. 실제로 OpenAI앤트로픽을 견제하려고 토큰값 인하를 검토한다는 보도도 같은 주에 나왔거든. 다만 원가 하락이 곧바로 판매가 인하로 이어지는 건 아니야. 공급사가 마진을 더 챙기면 체감 인하는 작을 수 있어. API 비용이 큰 비중을 차지하는 팀이라면, 단가 인하 공지를 기다렸다가 모델이나 공급사를 다시 고르는 것도 방법이야.