“AI가 인간 목소리 흉내”… 기업들 TTS 연구에 꽂히다

입력 2019-10-20 18:07
최근 IT기업들은 음성합성기술(TTS, Text To Speech) 연구에 몰두 중이다. TTS는 컴퓨터 프로그램으로 문자를 사람의 말소리로 바꾸는 기술이다. 과거엔 전문 성우가 녹음한 음성을 자음, 모음으로 나눠 소리를 붙여 어색함이 있었다. 최근 AI 기술과 만난 TTS는 목소리 일부분만 확보하면 호흡 속도 억양을 추출해 성우 없이 자연스럽게 문장을 읽을 수 있다. IT기업들은 더 나아가 AI가 ‘상냥한’, ‘슬픈’, ‘경쾌한’ 느낌을 표현하는 감정TTS까지 준비하고 있다.

TTS는 문자로 정보 전달이 어려울 때 음성으로 듣도록 사용자들의 접근성 향상을 위해 개발됐다. 현재 통화연결음이나 버스 지하철 안내방송, 오디오북 등 더 많은 분야에서 TTS가 활용되고 있다. AI스피커, 차량용 인포테인먼트(IVI)처럼 하드웨어가 발전해 오디오콘텐츠에 대한 수요가 늘자 IT기업들은 더욱 들을 거리에 집중하게 됐다.

AI스피커에 “뉴스 틀어줘”라고 자연스럽게 말하게 된 것처럼 음성은 터치나 타이핑보다 훨씬 직관적이고 빠르게 명령을 전달할 수 있다. 시장조사업체 컴스코어는 2023년 구글 검색 절반 이상이 음성으로 이뤄질 것이라고 전망했다.

TTS에 AI를 접목해 급성장한 분야는 오디오북이다. 지난해 네이버 오디오클립에서 발표한 배우 유인나의 ‘노인과 바다’가 대표적이다. 유인나는 책 일부만 낭독하고 나머지는 AI가 만들어낸 기계음인데, 호평과 함께 지금까지 누적 재생수 33만여회를 기록하고 있다. KT는 개인화 음성합성기술(P-TTS)을 통해 개그맨 박명수 목소리를 구현한데 이어, 지난 4월 부모 목소리로 아이에게 책을 읽어주는 ‘내 목소리 동화’를 출시했다. 부모가 약 30분에 걸쳐 300개 샘플 문장을 스마트폰에 녹음하면 AI가 딥러닝을 통해 세상에 하나뿐인 오디오 동화책을 만들어준다.

다만 고도화된 TTS는 타인의 목소리를 AI에 학습시켜 보이스피싱에 동원하는 등 악용될 우려도 제기된다. 한 업계 관계자는 “TTS에 사람에겐 안 들리지만 기계에는 들리는 주파수를 도입해 실제 사람 목소리와 기계 목소리를 구분하도록 하는 방법이 가능하다”고 말했다. 이어 “네이버나 구글, KT 등 기업들이 각자 AI기술로 음성서비스를 만들지만 일반 사람들은 결국 ‘목소리’를 통해서만 구별할 수 있다. TTS를 개발하는 궁극적인 목적은 TTS가 회사의 정체성을 나타내는 수단이 될 수 있기 때문”이라고 설명했다.

이안나 쿠키뉴스 기자 lan@kukinews.com