한 줄 정의
Speech to Text는 사람 목소리를 컴퓨터가 다룰 수 있는 글로 바꾸는 기술이야. 음성 입력을 검색, 자막, 요약, 명령 처리로 넘기기 전에 거치는 첫 변환층이라고 보면 돼.
어떻게 작동하나
오디오를 잘게 나누고 소리 특징을 뽑은 다음, 그걸 단어와 문장으로 복원해. 실무에선 여기에 화자 분리, 타임스탬프, 잡음 대응까지 붙어서 회의록이나 콜센터 파이프라인 전체를 이뤄.
왜 중요한가
회의 기록, 영상 자막, 음성 비서처럼 말이 먼저 들어오는 제품은 STT가 흔들리면 뒤에 붙는 검색과 요약도 같이 흔들려. 그래서 이 단계는 부가 기능이 아니라 음성 제품의 핵심 입력층으로 봐야 해.
주의해서 볼 점
정확도만 보면 부족하고 지연 시간, 지원 언어, 업계 용어 인식, 개인정보 처리 방식도 같이 봐야 해. 실시간 통화용인지 배치 전사용인지에 따라 허용 가능한 오류와 비용 구조가 꽤 달라져.
관련 용어
- Whisper는 STT 쪽에서 자주 같이 언급되는 대표 모델이야. 특정 제품명이 아니라 음성을 글로 바꾸는 모델 계열 예시로 보면 돼.
- Multimodal AI는 음성을 여러 입력 형식 중 하나로 다루는 더 큰 범주야. STT는 그중에서도 음성을 텍스트로 바꾸는 입구 역할에 더 가까워.
- Text to Speech는 글을 다시 소리로 바꾸는 반대 방향 기술이야. 둘을 같이 보면 음성 인터페이스의 입출력 흐름이 한 번에 보여.