AI용 한국어 말뭉치 155억어절 구축

입력 2017-10-09 18:52
문화체육관광부와 국립국어원은 한국어 인공지능(AI) 기술의 발전을 위해 앞으로 5년 동안 국어정보화사업에 예산 175억원을 투입할 예정이라고 9일 밝혔다. 이 사업은 다양한 한국어 말뭉치(corpus) 152억7000만 어절과 표준 말뭉치 1억3700만 어절을 구축하고 보급하는 사업이다.

국어정보화는 AI 발전을 위해 필수적인 사업이다. 사람이 기계와 의사소통하려면 컴퓨터가 인간의 말이나 글을 이해해야 한다. 그러려면 컴퓨터에 인간의 언어를 처리할 수 있는 방대한 언어 데이터베이스가 있어야 한다. 이 데이터베이스가 바로 말뭉치다. 말뭉치가 얼마나 정교하게 구축되느냐에 따라 AI의 언어 인식 정확도가 달려 있다.

문체부와 국어원은 이 사업에 2018∼2022년 175억원의 예산을 투입하기로 하고 우선 내년에 11억5700만원을 편성했다. 언어처리 성능 평가의 기준이 되는 평가용 말뭉치 6000만 어절과 번역과 사전편찬 등에 활용하기 위한 한국어-외국어 대역 말뭉치 4종(몽골어·베트남어·인도네시아어·태국어) 각 10만 어절을 구축하고 보급하는 내용도 포함됐다.

이번 사업은 두 기관이 1998∼2007년 10년간 추진한 ‘21세기 세종계획’의 후속 사업이다. 1차 세종계획은 총 150억원의 예산을 들여 소설 4000권 분량인 2억 어절의 말뭉치를 구축하고 60만개 어휘를 담은 전자사전과 언어정보화 프로그램을 개발했다.

강주화 기자 rula@kmib.co.kr