‘구글북스’로 인류 언어사용 변화 한눈에 본다… 1500년대 이후 책 1500만권 디지털화
입력 2010-12-17 18:00
구글의 서적 검색 서비스인 ‘구글북스’가 인문학의 새로운 경지를 열었다.
구글북스팀은 하버드대 연구팀과 함께 방대한 서적 데이터베이스(DB)를 활용해 인류의 언어사용을 추적하는 새로운 분야를 개척, ‘컬처러믹스(Culturomics)’라고 명명했다. 컬처러믹스 탄생을 알리는 논문은 16일(현지시간) 사이언스지에 발표됐다.
◇방대한 DB=구글북스는 1500년대부터 현대까지 출판된 서적 1500만여권을 디지털화했다. 인류가 그동안 펴낸 책의 12%에 이르는 분량이다. 연구팀은 이 중 정확하게 인식된 책 519만5769권을 다시 추려내 데이터베이스화했다. 영어 독일어 불어 스페인어 한자 러시아어 히브리어까지 7개 언어가 포함됐고, 단어 수만 5억개에 이른다.
구글북스를 이용하면 전문가가 평생을 걸려도 해낼 수 없는 작업이 순식간에 이뤄진다. 예를 들어 2000년 한 해에 출판된 서적만 해도 한 사람이 검토하려면 자거나 먹지 않고 해도 80년이 걸린다. 200년간의 서적을 모두 분류하려면 200명의 연구진이 평생을 바쳐도 다 해내지 못할 방대한 작업이다. 연구진은 “컬처러믹스는 사회과학과 인문학 연구에 새로운 지평을 열었다”고 평가했다.
◇언어의 연대기=컬처러믹스로 식별되는 언어의 변화엔 시대상이 고스란히 투영돼 있다. 단어 ‘신(God)’의 경우, 1800년대 초반만 해도 1만 단어당 12.5번꼴로 쓰였다. 종교가 그만큼 중요했음을 보여준다. 세속화와 함께 ‘신’이 등장하는 빈도가 줄어 2000년대엔 2.6회를 기록했다.
‘남성(men)’과 ‘여성(women)’ 두 단어를 비교하면, 19세기 중반엔 ‘남성’이 ‘여성’보다 9배나 많이 등장했다. 1985년엔 두 단어가 비슷하게 쓰였고, 2000년에 와서는 역전됐다.
직업별 분류도 흥미롭다. 백과사전 인명록을 조사한 결과 정치인은 50세가 넘어서야 유명세를 타고, 작가는 40대, 배우는 30세 전후인 것으로 나타났다.
김지방 기자 fattykim@kmib.co.kr