한 줄 정의

MiMo-V2.5-ASR (샤오미 음성인식 모델)는 음성 파일이나 마이크 입력을 텍스트로 바꾸는 Xiaomi MiMo의 8B 음성인식 모델이야. Hugging Face에는 XiaomiMiMo/MiMo-V2.5-ASR 체크포인트가 License: mit로 올라와 있고, Xiaomi 블로그는 중국어·영어, 우어·광동어·민난어·사천어 같은 중국어 방언, 코드스위칭, 가사, 잡음 많은 환경, 다중 화자 회의 전사를 핵심 범위로 설명해.

이름만 보면 일반 LLM 계열처럼 보일 수 있는데, 실제 쓰임은 채팅 답변이 아니라 오디오를 받아 전사문을 내는 쪽이야. 그래서 모델을 고를 때도 문맥 길이나 함수 호출보다 녹음 품질, 언어 범위, 화자 겹침, 배포 라이선스를 먼저 봐야 해.

이 모델로 무엇을 할 수 있나

기본 사용 장면은 녹음 파일을 넣고 중국어·영어 텍스트를 받는 전사 작업이야. Xiaomi 데모는 오디오 업로드나 마이크 녹음을 받고, 언어 태그를 Chinese / English / Auto 중에서 고르게 해. 중국어-영어가 섞인 말에서는 Auto를 두는 쪽을 권장한다고 설명해.

로컬로 붙일 때는 MiMo-V2.5-ASR만 받으면 끝이 아니야. 다운로드 안내는 XiaomiMiMo/MiMo-Audio-TokenizerXiaomiMiMo/MiMo-V2.5-ASR를 따로 내려받고, 로컬 데모는 Python 3.12, CUDA 12.0 이상, flash-attn==2.7.4.post1 설치를 전제로 해. Local LLM처럼 직접 GPU 서버에 올리는 흐름과 비슷하지만, 여기서는 음성 전처리와 오디오 토크나이저 경로가 같이 붙어.

강점으로 내세우는 범위는 꽤 구체적이야. 블로그 표에는 일반 중국어, Open ASR Leaderboard 기반 영어, 중국어 방언, 가사 인식, 내부 코드스위칭 업무 시나리오가 나뉘어 있어. 예를 들어 영어 표에서 MiMo-V2.5-ASR 평균 WER는 5.73이고 Whisper-large-v3는 7.44로 적혀 있어. 방언 표에서는 WeNet-Wu 19.55, Fleurs-Yue 3.28처럼 중국어 방언별 숫자도 따로 공개돼.

왜 중요한가

MiMo-V2.5-ASR가 중요한 이유는 공개 가중치 ASR 모델을 볼 때 “성능이 좋다”보다 더 쪼개야 하는 축을 잘 보여 주기 때문이야. 중국어 표준어 하나만 보는 모델인지, 방언과 코드스위칭까지 보는 모델인지, 노래나 회의처럼 음향 조건이 지저분한 입력을 견디는지에 따라 실제 제품 적합성이 크게 갈려.

라이선스도 판단 포인트야. License: mit 표기는 복제·수정·배포·판매까지 폭넓게 허용하는 MIT 계열 신호라서 실험과 재배포 검토를 빠르게 시작하기 좋아. 다만 MIT는 저작권/허가 고지 포함과 AS IS 면책을 같이 요구하고, 학습 데이터 권리나 Xiaomi 상표 사용까지 한 번에 풀어 주는 문서는 아니야. 고객 배포물에 넣는다면 라이선스 파일과 모델 카드의 실제 적용 범위를 같이 확인해야 해.

한국어 사용자는 특히 범위를 좁혀 읽는 게 좋아. 공식 표와 예시는 중국어·영어·중국어 방언 중심이고, 한국어 CER/WER 표가 따로 보이지 않아. 그래서 이 모델은 “한국어 회의록용 1순위”라기보다 “중국어권·영어권 음성, 방언, 코드스위칭까지 보는 공개 ASR 후보”로 놓고 벤치마크를 다시 잡는 편이 맞아.

같이 보면 좋은 모델

  • Whisper: 공개 ASR 모델 비교에서 가장 자주 붙는 기준선이야. Xiaomi 블로그도 Whisper-large-v3를 영어 WER 표에 넣어서 MiMo-V2.5-ASR의 위치를 보여 줘.
  • Qwen: Xiaomi 표에는 Qwen3-ASR-1.7B와 Qwen3-ASR-0.6B가 같이 등장해. Qwen 계열을 보면 중국어권 모델 생태계 안에서 ASR 전용 모델이 어떻게 갈라지는지 보기 좋아.
  • Gemini: 표에는 Gemini-3.1-Pro가 비교 대상으로 들어가 있어. 범용 멀티모달 모델과 ASR 전용 공개 모델을 같은 전사 과제에 놓고 볼 때 어디까지 공정한 비교인지 따져보기 좋아.

주의해서 볼 점

  • 벤치마크 한계: “state-of-the-art”라는 표현은 Xiaomi 자체 블로그와 모델 저장소의 설명이야. 표에 공개된 수치는 참고할 만하지만, 내 서비스의 녹음 길이, 화자 수, 마이크 품질, 언어 구성과 맞지 않으면 결과가 바로 달라질 수 있어. 특히 한국어나 다른 언어를 넣을 계획이면 별도 샘플로 직접 WER를 재야 해.
  • 배포/API 한계: HF 페이지에는 이 모델이 어떤 Inference Provider에도 배포되어 있지 않다고 표시돼. 그래서 버튼 하나로 관리형 API를 붙이는 모델이라기보다, 체크포인트를 내려받아 로컬 Gradio 데모나 자체 Python API로 시험하는 모델에 가까워.
  • 라이선스/런타임 한계: MIT 라이선스로컬 실행 가능성은 같은 말이 아니야. MIT는 권리 검토를 가볍게 해 주는 쪽이고, 8B F32 모델을 안정적으로 전사 서비스에 올리는 일은 GPU, CUDA, flash-attn, 오디오 토크나이저, 운영 모니터링을 따로 챙기는 문제야.