[기고-이창환] 빅데이터 시대

입력 2012-12-19 18:55


한 연구조사 결과에 따르면 전 세계 디지털 정보량은 2년마다 2배씩 증가한다고 한다. 정보화 사회의 진전으로 데이터 규모 자체가 기하급수적으로 늘어났지만, 이에 대응하여 예전에는 도저히 감당할 수 없어 방치되고 버려졌던 수많은 데이터들을 활용하여 분석하는 기술적 기반도 역시 지속적으로 발전하여 이른바 ‘빅데이터 시대’를 가능하게 한 것이다.

빅데이터란 다루는 정보의 규모를 가리키는 것이지, 결코 데이터를 ‘거칠게’, ‘대충’ 처리하자는 것이 아니다. 빅데이터는 이전의 ‘스몰데이터’에서는 하기 어려웠던 더욱 세밀하고, 정밀한 결과를 산출하기 위해 투입 데이터를 확장할 필요에서 나온 것이라고 볼 수 있다. 기업들이 고객들로부터 각종 정보를 끌어 모으려는 것도 결국 더 정확한 맞춤형 마케팅을 하려는 것이고, 선진 각국에서 사회구성원들이 쏟아내는 빅데이터를 분석하고자 하는 것도 도시교통, 세금, 강력범죄, 각종 재난대처 등 사회 각 영역에서 정확한 정보를 토대로 예산집행의 효율성과 공공서비스의 질을 높이고자 하는 것이다.

이렇게 어떠한 영역에서 발생하는 활동의 ‘산물’을 끌어 모으고, 이를 분석해 영역의 효율성과 가치를 제고하는 것이 빅데이터의 기본 취지라면, 과학기술 분야는 단연 빅데이터의 선구자라고 할 수 있다. 이는 한 해 수백만 건에 달하는 과학기술자들의 논문과 특허 등의 연구 활동 결과물들을 여러 출판사와 데이터베이스 제작자들이 예전부터 차곡차곡 쌓아 온 것에 기인한다. 빅데이터 업계는 비정형 형태의 빅데이터에 대한 처리로 어려움을 겪는 데 반해 과학기술 분야의 이러한 빅데이터는 구조화되고, 정형화된 데이터의 대표적인 사례라고 할 수 있다.

과학기술분야의 빅데이터는 누가 어떠한 연구를 했는지 검색하는 가장 기본적인 것에서부터, 논문이나 특허의 가치평가, 기관이나 국가의 과학기술경쟁력 분석, 거시적인 데이터의 트렌드 분석을 통한 미래기술 예측에 이르기까지 여러 목적으로 활용되고 있다. 한국과학기술정보연구원(KISTI)에서는 수천만 편에 이르는 학술정보들에서 유의한 정보를 추출하고 이를 다양한 분석기법을 이용하여 급부상 연구영역을 탐지하고, 가까운 미래에 어떤 기술영역이 유망할 것인지를 예측하는 사업을 2005년부터 수행하고 해마다 미래유망기술을 발표한 바 있다. 이러한 방법은 외국의 기술예측 관련 교과서에서도 주목을 받고 ‘매크로 모니터링(macro monitoring)’이란 명칭으로 소개된 바도 있다.

빅데이터에 대한 이러한 KISTI의 정보분석 연구 결과는 미래기술 정보포털 ‘미리안(mirian.kisti.re.kr)’을 통해 제공되고 있으며, 미리안은 이 외에도 선정된 미래기술 아이템의 동향에 대해 상시·지속적인 모니터링을 제공하는 ‘미래기술 지식베이스’도 최근 선보인다고 한다.

흔히들 엄청난 정보량에 압도되는 상태를 ‘정보의 홍수 속에 살고 있다’라고 말한다. 이런 표현이 수동적 의미가 강했다면, 앞서 언급한 ‘빅데이터’는 더욱 늘어난 정보량을 강조하면서도, 수많은 정보 속에서 의미를 찾아내겠다는 능동적인 의지에 방점을 두고 있다고 할 수 있다.

또한 빅데이터 시대 속 과학기술분석이 새로운 신규 사업을 구상하는 기업인뿐 아니라 관련 연구개발 종사자들에게 주도적·혁신적 연구 환경 조성을 위한 역할로도 해석 할 수 있다. 과학기술정보분석이 빅데이터 시대에 중요한 이유는 바로 여기에 있다.

이창환 과학기술정보硏 책임연구원