무슨 일이 일어났나
Xiaomi MiMo 팀이 MiMo-V2.5-ASR을 Hugging Face에 올렸어. 8B 파라미터의 음성인식 모델이고 MIT 라이선스야. 표준 중국어와 영어는 기본이고, 우어·광동어·민난어·사천어 등 5개 이상 중국어 방언도 지원해. 영어 AMI 벤치마크에서 Open ASR 리더보드 선두권에 들었다는 게 모델 카드에 명시돼 있어.
왜 이게 일어났나
음성인식은 LLM의 발전 속도에 비해 상대적으로 정체된 영역이었어. 특히 코드스위칭(중국어와 영어가 한 문장에 섞이는 발화)과 방언, 노래 가사, 노이즈 환경에서는 기존 모델들이 약했어. MiMo 팀은 이 7가지 시나리오 — 멀티 방언, 코드스위칭, 가사, 노이즈, 다중 화자, 지식 집약형, 자체 구두점 생성 — 를 명시적으로 타깃해서 학습시켰다고 모델 카드에 적었어.
어떤 의미인가
한국어 ASR을 찾는 사용자라면 직접 적용은 어려워 — 모델 카드에 한국어가 지원 언어로 표기돼 있지 않거든. 그래도 평가 방식 자체는 참고할 만해. 리더보드 점수 1개로만 비교하지 않고, 7가지 사용 환경별로 분리해서 보는 접근이 ASR 선택에 더 실용적이야. MIT 라이선스라 상업 사용 제약이 적고 가중치를 내려받아 직접 평가할 수 있는 점도 모델 선택 때 가산점이야. 한국어 ASR 모델을 고를 때도 같은 7가지 환경 기준으로 비교해 보면 자기 워크플로우에 맞는지 더 빨리 판단할 수 있어.