무슨 일이 일어났나

DeepSeekDeepSeek-V3.2 기술 보고서에 솔직한 대목이 있었어. 토큰 효율은 같은 품질에 도달하는 데 필요한 생성 토큰 양을 말해. 보고서는 Gemini 3.0-Pro급 출력 품질에 맞추려면 DeepSeek-V3.2가 더 긴 생성 경로를 필요로 한다고 설명했어.

Table 3을 보면 크기가 보여. CodeForces에서 DeepSeek-V3.2-Speciale는 2701점에 77k 출력 토큰을 썼고, Gemini 3.0-Pro는 2708점에 22k였어. HLE에서는 DeepSeek-V3.2-Speciale가 30.6점/35k, Gemini 3.0-Pro가 37.7점/15k였어. LocalLLaMA에서는 이 문장과 표가 다시 인용되면서 V4 Pro 평가 토론으로 번졌어.

왜 이게 일어났나

API 가격은 토큰 수로 매기니까 토큰 효율은 곧 비용이야. 오픈웨이트 모델로컬에서 돌릴 때도 추론 시간이 길어지면 GPU 점유 시간이 늘어나. DeepSeek은 이 부분을 모델 카드 마케팅 문구가 아니라 논문 본문과 수치 표에 같이 남겼어.

어떤 의미인가

오픈웨이트 모델을 평가할 때 벤치마크 점수만 비교하면 한쪽 면만 보는 거야. 반복 호출, 대량 자동화, 에이전트 루프처럼 토큰이 계속 쌓이는 작업이라면 77k 대 22k 같은 차이는 바로 비용 리스크로 이어져.

DeepSeekV3.2 논문에서 공식적으로 인정한 건 토큰 효율 격차 자체야.

반대로 수학·코딩 대회형 문제처럼 한 번의 고난도 풀이 품질이 더 중요하면 긴 추론을 감수할 여지도 있어. 그래서 LocalLLaMAV4 Pro 토론은 DeepSeek 공식 주장 자체가 아니라, 논문 수치를 현재 제품 평가로 넓힌 커뮤니티 해석으로 봐야 해.

모델 비교할 때 출처 분리는 매번 챙기는 게 안전해.