AI, 인간의 말 어디서 배울까… 덴마크 연구진이 찾은 곳

Է:2023-10-02 00:02
:2023-10-02 00:02
ϱ
ũ
국민일보DB

생성형 인공지능(AI) 개발을 위해선 대형언어모델(LLM) 확보가 필수다. 그러나 연구진들은 LLM 구축을 위한 ‘언어 데이터’를 수집하는 과정에서 늘 ‘저작권’이라는 난관에 부닥친다. 이런 이유로 덴마크어 LLM 개발에 뛰어든 연구진이 동물 ‘말’을 주제로 하는 커뮤니티를 참조하는 일이 벌어졌다.

블룸버그는 최근 덴마크 코펜하겐대 컴퓨터과학과 연구진이 LLM 개발용 데이터를 구축하기 위해 덴마크의 유명 ‘말 커뮤니티’인 ‘헤스테-네테트(Heeste-Nettet)’를 참조했다고 보도했다. ‘헤스테-네테트’는 덴마크에서 가장 많은 이들이 접속하는 커뮤니티 중 하나다. 연구진은 “대부분의 덴마크인이 ‘헤스테-네테트’를 알고 있다”며 “덴마크어 관련 질문을 찾을 때 이 커뮤니티를 위키피디아보다 더 많이 이용한다”고 설명했다.

헤스테-네테트의 말 커뮤니티 모습. 홈페이지 갈무리

연구진은 2021년 AI 훈련을 위한 덴마크어 자료수집에 들어갔다. 언론사 기사나 개인이 발행한 콘텐츠 등을 활용하려고 했지만 저작권 문제에 마주쳤다. 덴마크 정부의 문서를 활용할 수 있었지만 그러지 않았다. LLM은 AI가 인간처럼 말할 수 있게 하는 일종의 사전인 셈인데 무미건조한 어체의 정부 문서는 실제 덴마크인이 쓰는 언어와 거리가 멀었기 때문이다.

그래서 눈을 돌린 곳이 ‘헤스테-네테트’다. 이 커뮤니티는 1997년에 만들어졌다. 덴마크에서 가장 오래된 인터넷 포럼 중 하나다. 여기엔 인간관계, 의사 추천, 수학 문제 푸는 법, 달걀 삶는 법 등 다양한 주제의 콘텐츠가 즐비해 있다. 이 커뮤니티의 자료를 통해 구축한 덴마크어 LLM은 AI 데이터 세트 전체의 22%를 차지한다.

레온 더친스키 코펜하겐대 컴퓨터과학과 교수는 “레딧이나 트위터(현 엑스)는 AI를 훈련하는 데 필요한 일상적인 덴마크어 글을 충분히 제공하지 못한다”며 “헤스테-네테트는 말과 관련 없는 토론도 매우 풍부하고 일상적인 속어도 많다. 무엇보다 공개적으로 이용할 수 있다”고 설명했다.

한명오 기자 myungou@kmib.co.kr

GoodNews paper Ϻ(www.kmib.co.kr), , , AIн ̿
Ŭ! ̳?
Ϻ IJ о
õ
Ϻ Ź