한 줄 정의
Qwen3.5-122B-A10B(약칭 qwen3.5 122b)는 122B 계열 모델 중에서 10B만 실제로 활성되는 MoE 경량형이야. 한마디로 파라미터가 큰 편인데도 실행 순간에는 가벼운 동작 모드로 보일 수 있는 구조야.
처음엔 무겁게 느껴질 수 있지만, 실무에서 중요한 건 숫자보다 “같은 조건에서 어느 모드로 몇 토큰/초를 내는지”를 비교해 보는 점이야.
이 모델로 무엇을 할 수 있나
이 모델은 텍스트 기반 태스크의 초반 라운드에 적합해. 내부 문서 요약, 아이디어 브레인스토밍, 코드 초안 작성 같은 데 바로 써볼 수 있어.
예를 들어 테스트 환경에서 raw 대신 heuristic로 바꾸면 처리량은 올라가고, --ai-tune은 같은 프롬프트에서 응답 속도를 더 끌어올리는 편이야. 다만 품질이 모두 항상 올라간다고 단정할 수는 없어, 그래서 결과 비교는 항상 샘플 로그를 붙여야 해.
왜 중요한가
동일 모델 이름 아래 raw, heuristic, --ai-tune이 분리되니, 같은 모델인지/다른 모델인지 먼저 구분해야 해. 특히 비용·대기시간을 설계할 때는 운영팀이 이 차이를 기준값으로 잡아야 해.
벤치 수치가 4.1, 11.2, 17.47처럼 분리되는 건 좋은 쪽이야. 이 말은 환경이 같을 때 모드를 올리면 토큰/초가 체감으로 커진다는 뜻이라, 실서비스 SLO를 짤 때 선택지가 많아져.
왜 중요한가
동일 모델 이름 아래 raw, heuristic, --ai-tune이 분리되니, 같은 모델인지/다른 모델인지 먼저 구분해야 해. 특히 비용·대기시간을 설계할 때는 운영팀이 이 차이를 기준값으로 잡아야 해.
벤치 수치가 4.1, 11.2, 17.47처럼 분리되는 건 좋은 쪽이야. 이 말은 환경이 같을 때 모드를 올리면 토큰/초가 체감으로 커진다는 뜻이라, 실서비스 SLO를 짤 때 선택지가 많아져.
같이 보면 좋은 모델
- 11.2 tok/s: 동일 하드웨어에서 4.1 대비 개선된 성능 지점이야.
- 17.47 tok/s:
--ai-tune상향 시점으로, 동일 조건의 상대 비교 기준점이야. - 4.1 tok/s: 가장 보수적인 기준 베이스라인이야.
- benchmark: 처리량 검증을 위해 고정 입력/프롬프트를 반복해서 쓰는 평가 축이야.
- context-window: 길이 증가가 토큰 속도와 VRAM 사용량에 바로 반영되는 중요한 파라미터야.
- gpu-vram: 대형 MoE 실행에서 병목이 가장 먼저 보이는 자원이야.