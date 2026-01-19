페르소나AI, 사투리까지 이해하는 음성 AI 공개
소버린 AI 경쟁 속 ‘한국어 음성 주권’ 부상
글로벌 AI 패권 경쟁이 격화되는 가운데 페르소나AI가 사투리까지 인식하는 한국어 특화 음성 AI 모델을 공개했다.
각국이 자국의 언어와 데이터, 인프라를 기반으로 한 소버린 AI 구축에 속도를 내는 가운데, 음성 AI는 언어 주권을 직접적으로 좌우하는 핵심 기술로 부상하고 있다. 소버린 AI는 단순히 AI 기술을 보유하는 것을 넘어, 국가의 언어·문화·산업 데이터를 외부 의존 없이 통제하고 운영할 수 있는 역량을 의미한다.
이러한 흐름 속에서 페르소나에이아이(대표 유승재)는 2년간의 집중 개발 끝에 차세대 음성 AI 모델 ‘SSTT(Sovereign AI Speech to Text)’를 공개했다. SSTT는 한국어의 언어적 특성과 실제 산업 환경을 정밀하게 반영한 모델로, 단순한 음성 인식을 넘어 국내 최고 수준의 음성 데이터 정밀도를 구현한 것이 특징이다.
SSTT는 4000만개 이상의 한국어 발화 데이터셋, 약 5만 시간 이상의 음성 데이터를 학습했다. 이 중 약 1만3200시간을 사투리 데이터에 투입해 경상·전라·충청·강원·제주 등 5대 권역 방언과 고유 어휘를 정밀하게 구분한다.
짙은 방언과 지역 특유의 표현은 물론, 기존 AI가 인식하기 어려웠던 60대 이상 고령 화자의 음성 특성까지 반영해 세대와 지역을 아우르는 인식 성능을 확보했다.
기존 표준어 중심 음성 인식의 한계를 넘어, SSTT는 사투리 인식과 화자 분리가 가능하도록 설계됐다. 실시간과 오프라인 환경 모두에서 동작하며, 잡음·반향 감쇄, 자동이득제어(AGC), 딥러닝 기반 음성구간 검출, 화자 변곡점 검출 등 고품질 음성 전처리 기술이 집약됐다.
특히 최대 20명까지 화자 분리가 가능해 기존 4~5명 수준에 머물렀던 기술 대비 성능을 크게 끌어올렸다. 다자간 동시 대화 상황에서도 누가 어떤 발화를 했는지를 정확히 구분할 수 있어 회의 기록, 현장 관제, 다중 사용자 인터페이스 등 다양한 산업 현장으로 활용 범위를 넓혔다.
그동안 음성 인식 기술은 사투리와 억양, 발화 속도 차이로 인해 실제 산업 현장에서 정확도가 낮다는 한계를 안고 있었다. 이로 인해 콜센터, 공공 민원, 의료·제조 현장 등 음성 인식 수요가 높은 분야에서도 상용화와 확산이 더디게 진행돼 왔다. 페르소나AI의 SSTT는 이러한 구조적 문제를 정면으로 해결했다는 평가를 받고 있다.
업계에서는 SSTT를 피지컬 AI 시대를 대비한 핵심 기술로 보고 있다. 향후 로봇, 키오스크, 산업 장비, 자율 시스템 등 대부분의 피지컬 AI 기기가 음성을 중심으로 제어되고 상호작용할 것으로 예상되기 때문이다. 이 과정에서 외산 음성 모델에 대한 의존이 지속될 경우 데이터 주권, 보안, 서비스 연속성 측면의 리스크가 발생할 수 있다는 지적도 나온다.
페르소나AI는 AI 모델 개발부터 산업별 솔루션화까지 수행하는 기업으로, AICC와 생성형 AI 분야를 주력으로 하고 있다. 최근 CES 2026 혁신상을 2년 연속 수상하며 국제 무대에서도 기술 경쟁력을 입증했으며, 로봇과 기기, AI를 연결하는 VLA(Vision-Language-Action) 기술을 개발해 차세대 피지컬 AI 운영 구조를 제시하고 있다.
페르소나AI 관계자는 “소버린 AI 경쟁에서 가장 중요한 것은 모델의 규모가 아니라 자국 언어와 실제 산업 환경을 얼마나 깊이 이해하느냐”라며 “SSTT는 한국형 소버린 AI 구축의 실질적인 기반이 될 수 있는 핵심 모델”이라고 말했다.
