네이버 AI 하이퍼클로바X의 진화

입력 2024-08-23 03:32

네이버가 대화형 인공지능(AI) 에이전트 클로바X(CLOVA X)의 시각·음성 정보 처리 능력을 고도화한다. 그동안 글쓰기, 코드 작성, 번역 등의 단순 작업에 그쳤던 클로바X의 활용 범위가 획기적으로 넓어지면서 사용자의 작업 생산성이 향상할 것으로 보인다.

22일 네이버에 따르면 이달 27일부터 사용자가 클로바X 대화창에 이미지를 올리면 해당 이미지에서 추출된 정보를 바탕으로 AI와 대화할 수 있다. 클로바X는 사진 속 현상을 묘사하거나 상황을 추론하는 등 다양한 지시를 수행한다. 나아가 이미지나 그림 형식으로 된 표와 그래프를 이해하고 분석할 수 있다.

클로바X에 네이버의 거대 언어 모델(LLM)인 하이퍼클로바X가 결합하면서 더욱 정교한 답변을 도출할 수 있게 됐다. 초·중·고등학교 검정고시 총 1480개 문항을 클로바X에 이미지 형태로 입력하고 문제를 풀게 한 결과, 클로바X는 약 84%의 정답률을 보였다. 이는 오픈AI GPT-4o의 정답률 78%보다 높다.

앞서 네이버는 지난 20일 클로바X 기술 블로그에 하이퍼클로바X의 음성 AI 기술도 공개했다. 기존의 음성 인식 기술보다 한층 발전한 모델로, 언어 구조와 발음의 정확도를 개선했다. 대화에 감정 표현을 더해 자연스러운 대화가 가능하도록 했다. 이외에 실시간 음성 번역, 언어 학습, 상담 등의 서비스도 이용할 수 있게 됐다.

성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 “LLM으로 출발한 하이퍼클로바X는 거대 시각 언어 모델, 나아가 음성 멀티모달(복합정보처리) 언어 모델로 발전하고 있다”고 말했다.

나경연 기자 contest@kmib.co.kr