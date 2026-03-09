AI 서비스, 이제 글자에서 음성으로… ‘보이스 퍼스트’ 전략 주목
인공지능(AI) 서비스의 중심축이 움직이고 있다. 텍스트 기반 챗봇에서 목소리로 소통하는 ‘음성 에이전트’로 진화하는 것이다. 단순히 말을 알아듣는 단계는 넘어선 지 오래다. 사용자 발화에 담긴 감정과 맥락을 이해하고, 해야 할 업무까지 문제없이 처리해야 한다. AI 인터페이스의 표준이 바뀌면서 관련 기업들도 ‘보이스 퍼스트’ 기조 아래 기술 개발에 몰두하고 있다.
오픈AI는 최근 음성 입력과 출력을 동시에 처리하는 새로운 ‘양방향 오디오 모델’을 연구 중인 것으로 알려졌다. 지난 5일(현지시간) 정보기술(IT) 전문 매체 디인포메이션에 따르면 해당 모델은 사용자의 목소리를 실시간으로 이해하고, 음성으로 바로 응답하는 것이 핵심이다. 기존 음성 인식 시스템은 목소리를 텍스트로 바꾼 뒤, 텍스트 기반 언어모델에서 정보값을 처리하고 다시 텍스트를 다시 음성으로 변환하는 과정을 거쳐야 했다.
반면 양방향 오디오 모델은 입력 단계에서부터 음성 데이터를 이해하는 ‘네이티브 구조’를 적용해 끊김 없는 소통이 가능하다. 오픈AI는 해당 기술을 통해 스마트폰과 차량, 웨어러블 기기 등 다양한 환경에서 사람처럼 대화가 가능한 AI 비서를 구현하는 것이 목표다.
AI 개발사들이 목소리에 집중하는 이유에는 압도적 소통 속도와 효율성이 있다. 영어를 기준으로 사람은 평균 1분에 40단어를 적지만, 발화로는 150단어 이상을 전달한다. 복잡한 상황을 전해야 할 때도 글로 정리하려면 시간이 걸리지만, 말은 생각나는 대로 뱉기만 하면 된다. 운전 중이거나 요리 중일 때, 혹은 스마트폰을 주머니에서 꺼내기 힘든 상황에서도 입은 움직일 수 있다. 즉, 기업들이 추구하는 AI 에이전트에게도 텍스트보다 말이 훨씬 더 효과적인 명령어가 되는 셈이다.
음성은 감정과 맥락도 풍부하게 담아낼 수 있다. 텍스트에는 목소리의 톤이나 떨림, 속도, 억양 등 비언어적 정보가 담기지 않는다. 때문에 사용자 맞춤형 과제나 공감을 수행해야 하는 에이전틱 AI는 글보다 말을 더 잘 이해해야만 한다. 예를 들어 “불을 꺼달라”는 요청을 듣고 사용자가 화가 난 상태인지, 혹은 잠들기 직전의 나른한 상태인지를 파악한다면 적절한 조명 세기나 답변 내용을 제공하는 것이 가능해진다.
구글도 AI 모델 제미나이에 실시간 음성 대화 기능을 결합한 ‘제미나이 라이브’ 서비스에 집중하고 있다. 대화 도중 말을 끊어도 흐름을 놓치지 않는 ‘턴 테이킹(Turn-taking)’ 기술에 음성과 시각 정보를 동시에 이해할 수 있는 멀티모달 모델을 결합했다. 해당 기술은 애플의 자체 음성비서 ‘시리’를 고도화하는 데도 사용될 전망이다.
국내 통신사들도 음성을 기반으로 한 AI 에이전트 전략으로 수익 창출에 도전한다. LG유플러스의 AI 콜 에이전트 ‘익시오’가 대표 사례다. 홍범식 LG유플러스 최고경영자(CEO)는 지난 2일 ‘모바일월드콩그레스(MWC) 2026’ 개막식 기조연설에서 “음성은 가장 인간적이고 본질적인 연결 수단”이라며 익시오에 대한 자신감을 드러내기도 했다.
박선영 기자 pomme@kmib.co.kr
GoodNews paper ⓒ 국민일보(www.kmib.co.kr), 무단전재, 수집, 재배포 및 AI학습 이용 금지
클릭! 기사는 어떠셨나요?
많이 본 기사
국민일보가 꼼꼼히 읽어보고 선정한오늘의 추천기사