넷마블, 음성으로 캐릭터 표정 생성하는 AI 기술 공개

입력 2021-12-20 15:44 수정 2021-12-20 16:35

넷마블이 음성 기반 안면 애니메이션 생성 기술을 일본 콘퍼런스에서 공개했다. 왼쪽부터 넷마블 AI센터 오인수 실장, 최대근, 강신동, 조영박, 안수남 팀장.

게임사 넷마블이 AI(인공지능)가 음성을 듣고 감정 및 표정을 자동 분류해 캐릭터 안면에 적용하는 기술을 세계 최고 권위 그래픽 기술 분야 콘퍼런스에서 공개했다.

넷마블은 지난 14일부터 17일까지 일본 도쿄에서 온·오프라인을 결합한 형태로 열린 ‘시그라프 아시아 2021(SIGGRAPH Asia 2021)’에서 음성 대사 감정을 자동 인식하여 이를 기반으로 안면 애니메이션을 생성하는 기술(Emotion Guided Speech-Driven Facial Animation)을 공개했다.

시그라프 아시아는 세계 최고 권위의 그래픽 기술 분야 컨퍼런스다. 게임 및 그래픽 디자인, 컴퓨터 애니메이션 및 상호작용 기술, 시각 효과 등에 관한 다양한 연구 주제를 다룬다.

넷마블이 이번 컨퍼런스에서 공개한 기술은 시스템 상에 음성 데이터를 입력하면 AI가 자동으로 음성 대사에서 감정을 분석 및 추출하고, 해당 감정에 맞는 자연스러운 얼굴 표정과 립싱크 애니메이션을 게임 캐릭터에 적용하는 것이다.

이 기술을 고도화하면 현실적이고 생동감 있는 3D 그래픽 효과 연출을 자동화할 수 있다.

논문 발표를 진행한 넷마블 AI센터 안수남 팀장은 “넷마블이 자체 개발한 본 기술은 음성 감정 인식, 얼굴 표정, 립싱크 등 세 가지 모듈을 종합하여 실제 사람 표정 같은 자연스러운 그래픽을 구현할 수 있는 모델”이라면서 “기쁨과 슬픔, 두려움 등 여러 감정 표현에 관한 일정한 기준을 만들고, 여기에 각각 다른 강도를 부여하여 풍부한 감정 표현을 자동으로 생성하는 것이 핵심이다”고 밝혔다.

오인수 AI센터 실장은 “이 기술을 적용함으로써 게임 이용자의 몰입도 향상뿐만 아니라 개발 기간 단축 등 여러 부가적인 순기능도 기대하고 있다”며 “다양한 언어 기반 음성 처리를 할 수 있는 만큼, 향후 글로벌 신작 개발에도 적극 적용할 수 있도록 기술을 고도화해 나가겠다”고 말했다.

넷마블은 지난 11월 개최된 ‘EMNLP 2021’의 AI 번역 후보정 기술 챌린지에서 한국 게임업계 최초로 우승을 차지하며 기술력을 인정받았다. AI 분야 세계 최고 권위 컨퍼런스인 ‘NeurIPS 2020’에서 ‘MONICA: MObile Neural voIce Command Assistant for mobile games’, ‘IEEE ICASSP 2020’에선 ‘Robust End-to-end Keyword Spotting and Voice Command Recognition for Mobile Game’, ‘INTERSPEECH 2019’에서 ‘Robust Keyword Spotting via Recycle-Pooling for Mobile Game’ 논문으로 기술 발표를 진행했다.

이다니엘 기자 dne@kmib.co.kr