국내외 정보기술(IT)업체들이 막대한 자본을 투자해 보이스엔진 개발을 마쳤지만 공개를 망설이고 있다. 인공지능(AI)을 악용한 피싱(Phishing) 범죄가 기승을 부리면서 범죄 피해의 화살이 IT업체들에 쏠리고 있기 때문이다. 몇 초의 짧은 음성 파일을 학습하는 것만으로도 특정인의 목소리를 완벽하게 재현하는 보이스엔진은 보이스피싱 범죄를 확산시켰다는 비판을 받고 있다. IT업체들은 음성 데이터의 보안 문제와 개인의 사생활 보호 등 윤리적 사안을 해결할 수 있는 명확한 정책이 나오기 전까지 기술 상용화를 보류하겠다는 방침이다.
22일 업계에 따르면 네이버는 약 2초 길이의 음성 파일만으로 해당 음성 보유자의 목소리를 학습해 재현하는 보이스엔진 개발을 마쳤다. 보이스엔진에 사용되는 기술은 딥보이스(Deep Voice)로, AI 학습 방식인 딥러닝(Deep learning)과 목소리(Voice)의 합성어다. 이렇게 짧은 길이의 음성 파일로 대화까지 가능한 딥보이스 기술을 개발한 업체는 네이버가 유일무이하다. 하지만 네이버는 AI 기술 대부분이 불특정 다수에게 오픈소스 형태로 제공되는 업계 특성상 기술 공개를 보류하고 상용화 시점을 미루기로 결정했다. 기술 자체를 공개하지 않음으로써 딥보이스 범죄 시도를 원천적으로 차단하겠다는 취지다.
오픈AI도 지난 3월 약 15초 길이의 음성 파일만으로 특정인의 목소리를 완벽히 재현하는 보이스엔진을 개발했다. 하지만 기술의 오용 가능성을 고려해 광범위한 출시는 미루겠다는 입장을 밝혔다. 현재 해당 기술은 미리 보여주기(preview) 수준으로만 공개된 상태다. 오픈AI 관계자는 “사람 목소리를 닮은 음성을 생성하는 것은 심각한 위험을 야기하는 것”이라며 “선거가 있는 해에는 특히 위험하다”고 말했다.
보이스엔진은 당초 고인의 목소리를 복원한 뒤 유족에게 제공해 심리적 위로를 주는 등 긍정적인 목적으로 개발됐다. 한 예로 돌아가신 부모님의 목소리로 글을 읽어주는 ‘엄마의 목소리를 부탁해’라는 네이버의 캠페인은 이용자들에게 큰 호응을 얻었다. 미국에서는 아마존의 AI 음성 비서인 알렉사가 고인의 목소리를 재현한 뒤 고인과 대화할 수 있는 서비스를 제공해 인기를 끌었다.
하지만 실제 목소리와 구분이 힘든 AI 목소리가 범죄에 악용되는 부작용이 커지고 있다. 낯선 사람의 목소리를 활용하던 보이스피싱 범죄자들은 최근 딥보이스를 활용해 지인의 목소리로 피해자들에게 전화를 걸어 금전을 요구하거나 개인정보를 빼내고 있다. 금융감독원 통계에 따르면 지난해 보이스피싱 피해액은 1965억원으로 전년(1451억원) 대비 514억원(35.4%) 증가했다. 딥보이스 기술 발전이 보이스피싱 범죄 증가의 원인 중 하나로 꼽힌다. 업계 관계자는 “기술을 상용화할수록 범죄 피해에 대한 책임만 늘어나는 상황이라 실효성 있는 AI 범죄 예방책이 나오기 전까지 관련 기술을 시장에 내놓기는 어려울 것”이라고 말했다.
나경연 기자 contest@kmib.co.kr