덴마크어 대형언어모델(LLM) 개발에 뛰어든 연구진이 동물 ‘말(Horse)’을 주제로 하는 커뮤니티를 참조하는 일이 벌어졌다. 생성형 인공지능(AI) 개발을 위해선 대형언어모델(LLM) 확보가 필수다.
그러나 연구진은 ‘언어 데이터’를 수집하는 과정에서 늘 저작권이라는 난관에 부닥친다. 급기야 덴마크 연구진은 데이터 수집 과정에서 저작권료를 지불하지 않아도 되는 말 커뮤니티에 뛰어든 것이다.
블룸버그는 최근 덴마크 코펜하겐대 컴퓨터과학과 연구진이 LLM 개발용 데이터를 구축하기 위해 덴마크의 유명 ‘말 커뮤니티’인 ‘헤스테-네테트(Heeste-Nettet)’를 참조했다고 보도했다.
‘헤스테-네테트’는 덴마크에서 가장 많은 이들이 접속하는 커뮤니티 중 하나로 알려져 있다. 연구진은 “대부분의 덴마크인이 ‘헤스테-네테트’를 알고 있다”며 “덴마크어 관련 질문을 찾을 때 위키피디아보다 이 커뮤니티를 더 많이 이용한다”고 설명했다.
연구진은 2021년 AI 훈련을 위한 덴마크어 자료수집에 들어갔다. 언론사 기사나 개인이 발행한 콘텐츠 등을 활용하려고 했지만 저작권료 지불이라는 문제에 봉착했다. 덴마크 정부의 문서는 무료로 활용할 수 있었지만 그러지 않았다. LLM은 AI가 인간처럼 말할 수 있게 하는 일종의 사전인 셈인데 무미건조한 정부 문서 속 언어는 실제 덴마크인이 쓰는 언어와 거리가 멀다고 판단했기 때문이다.
그래서 눈을 돌리게 된 곳이 ‘헤스테-네테트’다. 1997년에 만들어진 이 커뮤니티는 덴마크에서 가장 오래된 인터넷 커뮤니티 중 하나다. 여기엔 인간관계, 의사 추천, 수학 문제 푸는 법, 달걀 삶는 법 등 다양한 주제의 콘텐츠가 풍부하다. 코펜하겐대 컴퓨터과학과 연구진이 이 커뮤니티를 통해 구축한 덴마크어 LLM은 AI 데이터 세트 전체의 22%를 차지할 정도다.
한명오 기자 myungou@kmib.co.kr