전화를 문자로, 동영상에 자동 자막… AI가 변환해준다

입력 2020-07-26 19:46 수정 2020-07-26 19:57
인공지능(AI)을 활용해 음성을 텍스트로 전환해주는 기술이 실생활로 영역을 넓히고 있다. 전화 통화를 문자메시지처럼 변환해주는 서비스부터 동영상 속 음성을 자막으로 만들어주는 서비스까지 등장하면서 사용자들의 편리성을 높여주고 있다.


음성인식 AI 스타트업 리턴제로는 지난 4월 음성 통화내용을 메신저처럼 문자로 보여주는 애플리케이션(앱) ‘비토(VITO)’(사진)를 출시했다. ‘Voice In Text Out’의 약자인 비토에는 음성을 문자로 바꿔주는 STT(Speech To Text) 기술과 목소리를 구분하는 화자 분리 기술이 적용됐다. 비토는 오픈베타 서비스 출시 50일 만에 누적 다운로드 5만건을 돌파했다.

앱을 켜니 저장돼있던 음성 통화 녹음 파일이 메신저 대화창처럼 구성된 화면에 텍스트로 나타났다. 한 시간에 달하는 통화도 스크롤을 내려서 읽는데 5분이면 충분했다. 검색 기능까지 적용돼 오래전 통화내용 중 기억이 잘 나지 않는 부분은 키워드로 찾아볼 수 있다. 대화창 말풍선을 누르면 해당 부분 음성을 들을 수도 있다. 현재 무료사용자에게는 최대 100통의 통화 변환 서비스가 제공된다. 월 4900~9900원 수준의 정기결제 서비스에 가입하면 최대 1000~1만 통화까지 문자화가 가능하다. 리턴제로는 올해 비토의 지원 언어를 중국어로 확대하고, 내년에는 일본어 버전도 내놓을 전망이다.


네이버는 클로바 AI 기술을 활용한 동영상 자동 자막 생성 기능(사진)을 최근 선보였다. 모바일 라이브 스트리밍 서비스인 ‘프리즘 라이브 스튜디오(PRISM Live Studio)를 통해서다. 동영상 장면과 내용에 어울리는 자막 템플릿 기능도 함께 제공한다. 사용자가 스튜디오에서 동영상을 편집할 때 음성인식 엔진인 NEST(Neural End-to-end Speech Transcriber)가 오디오를 분석해 자동으로 텍스트를 자막으로 변환해준다. NEST는 복잡한 음성을 정확하게 인식하고 텍스트로 변환할 수 있도록 네이버가 자체 개발한 기술이다.

자동자막 생성 기능을 사용하면 동영상 자막 작업의 편집 시간을 획기적으로 단축할 수 있고, 정확도도 높일 수 있을 것으로 기대된다. 다수의 자막 폰트와 텍스트를 제공하는 템플릿 기능을 통해 다채로운 디자인의 자막을 만들 수도 있다.

네이버 관계자는 “프리즘 라이브 스튜디오는 비대면 트렌드로 국내외 동영상 라이브 수요가 많아지고 있다”며 “1일 1만2000건의 라이브 방송이 진행되고 있는데 이는 지난 2월 대비 4배 이상 증가한 수치”라고 밝혔다.

김성훈 기자 hunhun@kmib.co.kr