“500시간 이상 AI 목소리 들어… 5분이면 원하는 통화연결음 완성”

입력 2019-10-20 18:12

“안녕하세요~ 최고의 맛을 보장하는 00입니다.” 요식업 등 일반 매장에 전화를 걸면 통화연결음이 흘러나온다. 이는 통신사에서 제공하는 부가서비스의 하나로 신제품 홍보나 안내 사항을 쉽게 전달할 수 있어 기업 마케팅 수단 중 하나로 자리잡았다.

통화연결음 제작을 위해선 성우가 매번 음성 녹음에 참여했는데 녹음 시간만 하루가 소요됐다. LG유플러스는 이 녹음을 ‘음성합성(Text to Speech, TTS)’ 기술로 전환했다. 이 기술을 통해 고객이 원하는 문구를 작성하면 통화연결음으로 ‘실시간’ 적용할 수 있다. 지난 4월 통화연결음 서비스에 TTS 기술을 처음 적용한 후, 5개월간 평균 가입자 수는 1.8배나 상승했다. 향후엔 자신의 목소리로 직접 안내 멘트를 넣을 수 있도록 개발 중이다. 음성합성 기반의 통화연결음 서비스는 입사 4년차에 접어든 선임의 노력에서 시작했다. LG유플러스 박지웅(사진)언어기술팀 선임을 만나 개발 과정을 들었다.

▶담당하는 업무는?=FC부문 AI기술담당 언어기술팀에서 음성합성 기술 연구 개발이다. 음성합성 기술에서도 사람이 말하는 것처럼 자연스러운 목소리로 표현하기 위한 ‘뉴럴 보코더(Neural Vocoder)’ 개발과 감정 실린 목소리를 만드는 ‘감성 TTS’ 등을 중점적으로 연구한다.

▶ LG유플러스에서 음성합성 기술이 어떻게 활용되고 있나=음성합성은 입력된 문자를 토대로 음성을 변조해 내는 기술이다. 고객이 웹에서 원하는 문구를 통화연결음으로 설정할 수 있다. 예전엔 같은 서비스를 이용하려면 하루 이상 걸렸지만 이젠 바로 들어볼 수 있다. 비용도 4분의 1 가량 저렴해졌다.

▶ 음성합성 기술을 통화연결음에 접목시키게 된 계기는?=사실 경쟁사에서 먼저 통화연결음 서비스에 음성합성 기술을 도입했는데, 현장에서 우리도 이러한 서비스를 요구했다. 작년 10월, 딥러닝 기반의 음성합성 기술을 개발 완료한 상태여서 6개월만인 올 4월 서비스를 출시할 수 있었다.

▶ 타사와 차별화되는 장점은?=LG유플러스 통화연결음 서비스엔 ‘USS(음소단위합성)’와 ‘DNN(딥러닝기반합성)’ 2가지 음성합성 엔진이 적용됐다. USS 방식은 현재 보편적으로 쓰이는 기술로 음소 단위로 음원을 녹음하는 방식이다. 데이터가 많을수록 자연스럽다. DNN 방식은 소량의 문장 단위를 입력하면 이를 학습해 전체 음원을 생성한다. USS보다 자연스럽고 녹음의 양이 중요하지 않아 비용 면에서도 유리하다. USS 방식으로 여성의 목소리를, DNN 방식으로 남성과 아이 목소리를 제작할 수 있다.

▶ 결국 딥러닝 기반인 DNN 방식에 주력할 것 같은데=맞다. DNN 방식을 활용하면 향후 목소리에 감성을 담을 수 있다. 가령 상조회사 통화연결음은 ‘차분한 목소리’, 쇼핑몰은 ‘경쾌한 목소리’로 음성을 제공한다. 이 기술은 지난 9월 개발 완료해 상용화를 위한 검증을 진행 중이다.

▶ 프로젝트를 이끌면서 어려웠던 점과 기뻤던 점은?=음성합성 엔진의 결과에 대해 좋다 나쁘다라는 판단은 직접 경험해보는 수밖에 없었다. 매일 4시간 이상 6개월간 500시간 이상 AI의 목소리를 들었다. 객관적 평가를 위해 주변에 수시로 음성합성 결과를 들려줬는데 그만 듣고 싶다며 나를 피할 정도였다. 기뻤던 순간은 프로젝트가 끝나고 현장 사람들 대상으로 진행한 신상품 영업설명회에서 ‘상품매력도 1위’를 차지했을 때다. 통화연결음을 자주 바꿔야 하는 기업고객들에게 유용하다는 점을 인정받았다

▶ 앞으로 계획은?=DNN 방식의 음성합성 기술을 어린이들이 사용하는 키즈워치에 적용해 자연스러운 목소리로 업그레이드 할 계획이다. 향후에는 AI 기술로 개인화된 ‘브랜드 보이스’를 만들어주는 것을 목표로 하고 있다. 고객별로 업종이나 상황에 따라 AI가 최적의 목소리를 생성해줘, 사람들이 목소리만 듣고서 어느 회사 매장의 목소린지 알도록 하는 것이다.

이안나 쿠키뉴스 기자 lan@kukinews.com