한 줄 정의

Text to Speech는 글을 소리로 읽어 주는 기술이야. 화면에 있는 텍스트를 귀로 들을 수 있는 출력으로 바꾸는 계층이라고 보면 돼.

어떻게 작동하나

문장을 발음 단위와 억양 정보로 풀고, 그걸 바탕으로 오디오 파형을 만들어 내. 요즘은 단순 낭독을 넘어서 감정, 말투, 속도, 화자 스타일까지 제어하는 흐름이 많아.

왜 중요한가

접근성 기능, 오디오북, AI 비서, 고객 응대 봇처럼 귀로 전달되는 제품은 TTS 품질이 곧 사용자 경험이야. 같은 답변이라도 목소리가 어색하거나 반응이 느리면 제품 완성도가 바로 떨어져.

주의해서 볼 점

자연스러움만 볼 게 아니라 지연, 긴 문장 안정성, 다국어 발음, 끊김도 같이 봐야 해. 또 보이스 클로닝이나 특정 화자 흉내 기능은 품질 문제만이 아니라 정책과 저작권 이슈도 같이 따라와.

관련 용어

  • Speech to Text는 소리를 글로 바꾸고, TTS는 글을 소리로 바꿔. 둘을 같이 보면 음성 인터페이스의 입출력 방향이 선명해져.
  • Multimodal AI는 텍스트와 음성을 함께 다루는 더 큰 범주야. TTS는 그중에서도 텍스트를 음성으로 내보내는 출력 쪽에 가까워.
  • Whisper는 반대 방향인 STT 쪽 대표 예시라서 입출력 흐름을 비교할 때 자주 같이 읽혀. 그래서 TTS를 이해할 때도 짝 개념으로 붙여 보면 좋아.