대구경북과학기술원(DGIST·디지스트)은 ‘2023년 인공지능 학습용 데이터 구축 지원 사업’에 선정됐다고 5일 밝혔다.
한국어 성능이 개선된 초거대 AI 언어모델 개발과 데이터 구축을 목표로 과학기술정보통신부, 한국지능정보사회진흥원(이하 NIA)로부터 14억원을 지원받아 과제를 수행한다.
이번 과제에는 과제 책임자인 디지스트 전기전자컴퓨터공학과 김대훈 교수를 중심으로 송진영 교수 연구팀, 인하대학교 김도국 교수 연구팀, 빅웨이브에이아이, 디지스트 학생창업기업 유니바가 컨소시엄을 구성해 참여한다. 연구팀은 지난 7월부터 연구·개발에 착수했다.
Chat-GPT, Google의 Bard와 같은 AI 언어 모델 기반 대화 서비스가 등장하면서 누구나 쉽게 초거대 언어 모델 기반의 서비스를 이용하고 있다. 하지만 이러한 초거대 언어 모델 기반의 서비스는 한국어에 대한 이해가 부족해 사용 시 불편을 겪을 수 있다. 연구팀은 이를 해결하기 위해 양질의 학습용 한국어 말뭉치 데이터를 구축하고 모델을 개발해 초거대 AI 언어 모델의 한국어 성능을 개선할 계획이다.
과제 책임자 김대훈 교수는 “언어 모델을 학습하기 위한 한국어 데이터가 매우 부족한 상황”이라며 “디지스트, 인하대 연구팀, 관련 기업이 함께 머리를 맞대면 초거대 언어 모델 기반 서비스들의 한국어 성능 개선에 크게 기여할 수 있을 것”이라고 말했다.
한편 인공지능 학습용 데이터 구축 지원 사업은 인공지능 학습용 데이터·모델 구축·개방을 통해 인공지능 생태계 조성과 일상화를 목표로 과학기술정보통신부가 주관하고 NIA가 추진하는 사업이다. 2805억원의 예산을 투입해 150종의 신규 데이터를 구축한다.
대구=최일영 기자 mc102@kmib.co.kr