삼성전자가 인공지능(AI)과 대화하듯 소통하며 작업을 수행하는 ‘멀티모달 AI’를 공개했다. AI가 사용자 의도까지 이해하는 고도의 자연어 처리 능력으로 한층 더 간편하고 직관적인 AI 경험이 가능한다는 게 삼성전자 설명이다. 다만 AI가 사용자 의도를 잘못 이해하고도 이해한 것처럼 거짓 반응을 만들어내는 ‘할루시네이션’은 업계 차원에서 넘어야 할 과제로 남아있다.
삼성전자는 ‘갤럭시 언팩 2025’ 행사 종료 이후인 지난 9일(현지시간) 미국 뉴욕서 간담회를 열고 멀티모달 AI에 대해 설명했다.
박지선 MX사업부 랭귀지 AI팀 부사장은 “과거 PC가 처음 등장했던 시절에는 전원 스위치를 누르고 마우스를 클릭하는 등 마우스(클릭) 기반 인터페이스고 사용됐고, 이후 스마트폰이 등장하며 스크린(터치) 기반 인터페이스로 진화했다”며 “최근에는 AI 시대가 도래하며 대화형 인터페이스가 등장했다. 내가 처한 상황과 환경을 대화로 공유하고 AI와 소통할 때 진정한 AI 경험이 이뤄질 것”이라고 말했다.
멀티모달 AI는 기존 AI보다 사용자의 의도를 훨씬 더 능숙하게 이해하는 모델이다. 자연어 이해·처리 기술이 더 고도화돼 사용자와 대화하듯 흐름을 이끌며 작업을 수행할 수 있다. 지난 4월 공개된 ‘비전 AI’가 카메라를 이용해 주변 사물을 인식하고 작업을 처리하는 수준이었다면, 멀티모달 AI는 시각에서 청각으로 능력을 확장한 것이다. 박 부사장은 “2017년 출시한 빅스비 보이스와 빅스비 비전을 시작으로 꾸준히 연구 개발을 이어온 결과 스마트폰에서 음성과 시각 정보의 종합적 처리가 가능해졌다”고 말했다. 그는 “가장 개인화된 AI 경험을 하게 될 것”이라고 강조했다.
삼성전자는 사용자 수요가 청각·대화 기반으로 이동하고 있다는 점을 주목하고 멀티모달 AI 개발에 나섰다고 설명했다. 삼성전자와 런던대 골드스미스 경영연구소가 공동으로 진행한 연구 결과에 따르면 45%의 AI 사용자가 타이핑 만큼이나 음성 명령을 자주 사용한다고 응답했다. 또 별도 명령 없이도 스마트폰이 사용자 패턴을 분석해 자동으로 작업을 처리해주길 바란다는 응답도 60%에 달했다.
다만 AI 업계의 최대 난제인 할루시네이션 현상은 여전히 해결하지 못한 상황이다. 이 때문에 AI의 작업물을 온전히 활용하지 못하거나 사용자가 일일이 검증하는 과정에서 생산성이 저하되는 등 부작용이 적지 않다. 글로벌 시장 1·2위를 다투는 오픈AI 챗GPT와 구글 제미나이도 이런 현상에서 자유롭지 못하다.
박 부사장은 “거대언어모델(LLM)이 출시된 지 몇 년이 지났지만 그 뒤에는 항상 할루시네이션 문제가 존재했다”며 “LLM을 쓰는 이상 어느 정도는 존재할 수 있는 문제라 업계 전체가 고민 중이다. 100% 해결은 못해도 어느 정도 개선을 해가며 기술 성숙도를 끌어올릴 예정”이라고 말했다. 삼성전자는 새롭게 업그레이드한 멀티모달 AI를 이번에 새로 출시하는 갤럭시 Z폴드7·플립7에 적용한다.
뉴욕=김지훈 기자 germany@kmib.co.kr