한 줄 정의
Whisper는 OpenAI가 공개한 자동 음성 인식 모델이야. 채팅을 잘하는 모델이 아니라, 사람 목소리나 녹음 파일을 받아 텍스트로 옮기는 데 초점이 있는 모델로 보면 돼.
이 모델로 무엇을 할 수 있나
회의 녹취, 자막 초안, 고객센터 통화 기록 정리, 음성 인터페이스 전처리처럼 오디오를 먼저 글로 바꿔야 하는 일에 바로 붙일 수 있어. OpenAI 소개 기준으로 다국어 전사와 영어 번역을 지원하고, 공개된 모델과 inference code를 직접 돌려서 로컬 파이프라인이나 서버 처리 흐름에 넣는 식의 활용도 많아.
왜 중요한가
Whisper는 공개된 STT 모델 중에서 실무 체감이 큰 이름이라서, 음성 기능이 필요한 제품들이 자체 파이프라인을 만들 때 자주 기준점으로 삼아. 특히 68만 시간 규모의 다국어 데이터로 학습됐다는 공식 설명 덕분에, 잡음이나 억양이 섞인 환경에서도 비교적 강인한 공개 모델이라는 인식이 넓게 퍼졌어.
같이 보면 좋은 모델
- Speech to Text는 Whisper가 들어가는 작업 범주 자체를 설명해. Whisper는 그 범주 안에서 가장 널리 알려진 구체적인 모델 사례 중 하나야.
- Multimodal AI는 여러 입력 형식을 함께 다루는 시스템을 가리켜. Whisper는 그중에서도 오디오를 텍스트로 바꾸는 단일 축에 더 집중한 모델이야.
- Text to Speech는 글을 소리로 바꾸는 반대 방향 기술이야. Whisper와 같이 보면 음성 입출력 파이프라인의 앞뒤가 어떻게 나뉘는지 감이 와.