무슨 일이 있었나

음성 비서랑 통화해보면 묘하게 어색할 때 있잖아. 내가 말 끝내기도 전에 끊고 들어오거나, 반대로 한참 조용해서 “어? 듣고 있나?” 싶은 순간. Kyutai 연구팀이 6월 9일 그 어색함을 강화학습으로 줄이는 후처리 방법을 arXiv에 올렸어. 듣기랑 말하기를 동시에 하는 풀듀플렉스 음성 모델이 대상이야.

뭘 고쳤나

기존 풀듀플렉스 모델은 다음에 올 토큰을 맞히는 지도학습만으로 훈련돼. 그래서 단어는 잘 만드는데, “언제 말하고 언제 멈출지” 같은 대화 흐름은 직접 배우지 못해. 이 연구는 사람 대화 녹음에서 짧은 구간을 뽑아 네 가지 축마다 보상을 따로 줬어.

  • 침묵 처리: 침묵이 길어지지 않게.
  • 차례 넘기기: 상대 말이 끝났을 때 자연스럽게 받게.
  • 맞장구: 듣는 중에 “응”, “그래” 같은 반응을 넣게.
  • 끼어들기 대응: 사용자가 중간에 말 끊으면 멈추게.

여기에 답이 엉뚱해지지 않도록 응답 품질을 보는 LLM 기반 보상을 하나 더 얹었어. 사람이 일일이 라벨을 다는 대신, 축별 보상 함수로 행동을 직접 다듬는 방식이야.

어떤 의미인가

검증은 Moshi랑 PersonaPlex, 두 오픈소스 모델에서 했어. Moshi는 Kyutai가 2024년에 공개한 실시간 음성 대화 모델이야. 두 모델 다 대화 흐름이 자연스러워지는 걸 확인했고, 특히 사용자가 잠깐 멈춘 건지 말을 끝낸 건지 구분하는 게 나아졌어.

실무에서 보면, 음성 비서나 콜센터 자동화가 “대답은 맞는데 타이밍이 이상한” 문제로 안 쓰이는 경우가 많거든. 이건 그 타이밍을 따로 학습 대상으로 잡았다는 점이 의미 있어. 다만 초록만 공개된 단계라 구체적인 개선 수치는 아직 안 보여. 두 모델에서 됐다고 모든 음성 모델에 그대로 통한다고 보긴 일러. 방향은 관심이 가는데, 숫자는 논문 본문 나오면 다시 보면 돼.