처음 보는 이미지도 설명하는 AI… LG ‘캡셔닝 AI’ 국제학회서 첫 선

입력 2023-06-19 16:04 수정 2023-06-19 16:15

LG 인공지능(AI)연구원이 18일(현지시간) 캐나다 밴쿠버에서 열리고 있는 세계 최대 컴퓨터 비전 학회 ‘CVPR(Computer Vision and Pattern Recognition·컴퓨터 비전 및 패턴 인식) 2023’에서 이미지 검색시장에 변화를 가져올 ‘캡셔닝 AI’를 처음 공개했다.

생성형 AI 상용화 서비스인 캡셔닝 AI는 ‘인간처럼 처음 보는 이미지까지 자연어로 설명할 수 있는 AI’다. 이미지 검색에 활용할 수 있는 정보인 문장, 키워드 등의 메타 데이터를 생성한다.

이미지 상의 다양한 요소와 특징을 인식해 설명 글과 키워드를 생성하는 캡셔닝 AI(Captioning AI)

LG AI연구원이 적용한 기술은 ‘제로샷 이미지 캡셔닝’이다. AI가 기존에 학습한 대량의 이미지와 텍스트 데이터를 기반으로 이미지의 배경, 인물, 행동 등을 인식하고, 그 관계를 이해·설명할 수 있도록 하는 기술이다.

캡셔닝 AI는 대량의 이미지를 관리해야 하는 기업의 효율·생산성을 높일 수 있다. 문장이나 단어 길이와 개수에 따라 다르지만 평균 5개 문장과 10개 키워드를 10초 안에 생성한다. 이미지 범위를 1만장으로 확장하면 2일 안에 작업을 끝낼 수 있다.

18일(현지시간) 이홍락 LG AI연구원 CSAI가 캡셔닝 AI에 적용한 제로샷 이미지 캡셔닝 기술에 대해 설명하고 있다. LG 제공

캡셔닝 AI는 LG AI연구원과 셔터스톡(Shutterstock)의 협력으로 탄생했다. 셔터스톡은 매일 수십만개 이상의 시각 콘텐츠를 새롭게 추가하는 세계 최대 플랫폼 기업이다.

LG AI연구원은 학회 기간에 LG 부스를 방문한 연구자들을 대상으로 캡셔닝 AI 서비스를 시연할 계획이다. 19일에 석·박사 학생을 대상으로 네트워킹 행사인 ‘LG AI Day’를 연다. 20일부터 3일 동안 LG그룹 계열사들의 AI 연구 인력과 채용 담당자가 통합 부스에서 최신 AI 기술 시연, 채용 상담을 진행한다.

김혜원 기자 kime@kmib.co.kr