생성형 AI 상용화 서비스인 캡셔닝 AI는 ‘인간처럼 처음 보는 이미지까지 자연어로 설명할 수 있는 AI’다. 이미지 검색에 활용할 수 있는 정보인 문장, 키워드 등의 메타 데이터를 생성한다.
LG AI연구원이 적용한 기술은 ‘제로샷 이미지 캡셔닝’이다. AI가 기존에 학습한 대량의 이미지와 텍스트 데이터를 기반으로 이미지의 배경, 인물, 행동 등을 인식하고, 그 관계를 이해·설명할 수 있도록 하는 기술이다.
캡셔닝 AI는 대량의 이미지를 관리해야 하는 기업의 효율·생산성을 높일 수 있다. 문장이나 단어 길이와 개수에 따라 다르지만 평균 5개 문장과 10개 키워드를 10초 안에 생성한다. 이미지 범위를 1만장으로 확장하면 2일 안에 작업을 끝낼 수 있다.
캡셔닝 AI는 LG AI연구원과 셔터스톡(Shutterstock)의 협력으로 탄생했다. 셔터스톡은 매일 수십만개 이상의 시각 콘텐츠를 새롭게 추가하는 세계 최대 플랫폼 기업이다.
LG AI연구원은 학회 기간에 LG 부스를 방문한 연구자들을 대상으로 캡셔닝 AI 서비스를 시연할 계획이다. 19일에 석·박사 학생을 대상으로 네트워킹 행사인 ‘LG AI Day’를 연다. 20일부터 3일 동안 LG그룹 계열사들의 AI 연구 인력과 채용 담당자가 통합 부스에서 최신 AI 기술 시연, 채용 상담을 진행한다.
김혜원 기자 kime@kmib.co.kr