문장 하나 녹음하고 50원, 이건 뉴딜인가 알바인가 [이슈&탐사]

입력 2020-10-19 05:06
AI 데이터 기업 테스트웍스 관계자가 지난 7일 서울 송파구 사무실에서 장애인에게 데이터 라벨링 교육을 하고 있다. 권현구 기자

스마트폰 화면에 문장이 하나 뜬다. ‘의사도 종류가 많은데 어떤 의사 말하는 거야?’ 하단의 빨간색 녹음 버튼을 누른 뒤 “의사도 종류가 많은데 어떤 의사 말하는 거야?” 하고 따라 읽고 ‘제출’ 버튼을 누른다. 제출한 데이터가 누군가의 검토를 거쳐 ‘통과’되면 50원을 번다.

국민일보 취재팀이 ‘데이터 노동의 등장’ 시리즈를 취재하면서 시도해본 데이터 노동 가운데 하나다. 인공지능(AI)이 학습할 데이터를 수집, 가공하는 데이터 노동은 대부분 단순하고 반복적이다. 취재팀은 의자 사진에서 배경은 빼고 의자에만 네모난 박스를 그리는 일도 해봤다. 이렇게 해서 제출한 데이터가 통과되면 5~15원이 쌓인다. 식당의 탁자 위 휴지케이스 사진을 찍는 일은 200원 적립이 가능했다.

데이터 노동은 전통적인 노동과 다른 모습이다. ‘일’이라고 부를 수 있을지 의문이 들 만큼 단순한 작업이 많다. 상당 부분이 크라우드소싱(대중 참여·crowd sourcing) 방식이어서 일하는 시간과 장소는 중요하게 여겨지지 않는다. 이 탓에 ‘아르바이트’나 ‘부업’이라는 이름으로 불리고 있다.

그렇지만 데이터 노동 수요는 급속도로 늘고 있다. 정부도 일자리 위기 극복 차원에서 정책적으로 이 일을 장려하기 시작했다. 정부는 지난 7월 디지털 뉴딜 정책을 발표하며 2025년까지 일자리 90만개를 만들겠다고 했다. 이 중 상당수가 AI 학습과 관련한 데이터 노동이다. 수십년 후 미래에는 꽤 많은 사람이 AI를 지원하는 일을 하며 살지 모른다.

이런 현상을 긍정적으로 받아들이기만은 어렵다. 저임금의 불안정한 일자리가 늘어날 것이라는 우려가 제기된다. 또 다른 플랫폼 노동의 확산이라는 시각이다. 다른 한편으로 AI산업 측면에서는 이런 ‘인형 눈알 붙이기’ 없이는 산업이 발전하기 어렵다는 목소리가 나온다.

임금교섭·산재가 없는 일자리

이광석 서울과학기술대 IT정책전문대학원 교수는 ‘디지털 뉴딜’ 일자리에 대해 “장기적인 일자리 대책이 아니다”고 말했다. 그러면서 관련 일자리를 ‘유령 노동(ghost work)’이라고 불렀다.

유령 노동이란 모바일 애플리케이션이나 웹사이트, AI 시스템 등에 투입되지만 겉으로 잘 드러나지 않는 인간의 노동을 뜻한다. 실재하고 필수적인 노동이지만 직업 분류도 제대로 갖춰져 있지 않고 AI 뒤편에서 보조적인 업무를 수행한다. 서비스 혜택을 누리는 소비자들이 볼 수 없도록 감춰져 있다는 특성 탓에 ‘유령’이라는 수식이 붙었다.

한국과학기술정보연구원(KISTI)의 ‘과학기술 기계학습 데이터 구축 사업’에 참여한 방극렬 기자가 지난달 29일 논문 데이터의 오탈자를 확인하고 있다. PDF 형태의 논문을 인공지능(AI)이 학습할 수 있는 HTML 형식의 데이터로 구축하는 과정에서 띄어쓰기 오류 등은 필연적으로 발생한다. 윤성호 기자

정부가 추진 중인 ‘디지털 댐’ 사업의 일자리는 대부분 유령 노동에 해당한다. AI 학습에 필요한 음식 사진 찍기, 문장 만들기(데이터 수집), 음식이나 의자 등에 네모난 박스를 치고 태깅(tagging)하는 일(데이터 가공) 등이다. 누구나 일정 정도 교육을 받으면 쉽게 접근할 수 있다. 정부가 “경력단절 여성, 장애인, 은퇴자 등 코로나19로 경제적 어려움을 겪는 취약계층에게 많은 일자리 기회를 제공할 것”이라고 말한 이유다.

AI 학습용 데이터 수집과 가공은 일이 어렵지 않으니 임금이 낮다. 숙련이 필요치 않으므로 자유계약직이나 임시직이 많다. 이 때문에 해외에서 데이터산업은 인구가 많고 임금이 저렴한 중국, 인도, 동남아시아, 아프리카 지역으로 아웃소싱이 이뤄지고 있다. 정부가 디지털 뉴딜 사업으로 대규모 일자리 창출을 공언했지만 ‘질 낮은 일자리’라는 비판이 나오는 배경이다.

이병훈 중앙대 사회학과 교수는 “정부가 일자리 몇 십만 개를 창출하겠다고 하지만 자주 언급되는 데이터 라벨링 같은 일자리는 디지털 노동 중에서도 로(low) 퀄리티”라며 “양질의 일자리를 늘려가야 할 정부가 이런 질 낮은 일자리를 대규모로 장려하는 게 맞는지 의문”이라고 말했다.

이광석 교수는 “AI가 실질적인 노동을 하고 인간은 심부름 역할을 한다”며 “흔히 인형 눈알 붙이기에 비유하는데 이런 노동이 나중에 무슨 경력이 될 수 있겠느냐”고 말했다.


데이터 노동자들은 자신이 기여한 AI 기술이 어떤 서비스를 창출하는지, 어느 정도의 가치를 지니게 되는지 알지 못하는 경우가 많다. 이른바 ‘노동 소외’ 현상이 뚜렷하게 발생한다. 취재팀과 인터뷰한 데이터 라벨러들은 대부분 “내가 참여한 사업의 AI가 어떻게 쓰이는지 잘 모른다”고 말했다.

최종 산물의 가치를 잘 모르므로 데이터 노동자들은 본인 노동력의 가치도 알기 어렵다. 데이터 노동자들의 임금은 일감을 주문한 기업에 의해 정해진다. 노동자들은 크라우드소싱 공간에서 뿔뿔이 흩어져 있으므로 노동조합 결성이 쉽지 않다. 임금 교섭을 요구하기도 힘들다.

데이터 노동자들은 업무 중 발생하는 사고도 스스로 책임져야 한다. 예컨대 정부 과제 가운데 ‘랜드마크 이미지 AI 데이터’ 프로젝트는 전국 50개 도시의 랜드마크(공공기관, 주요 건물, 관광명소, 편의시설 등) 이미지를 구축하는 작업이다. 여기에 제출할 사진을 찍기 위해 현장에 갔다가 사고를 당할 경우 책임은 본인에게 있다. 산업재해 처리는 기대하기 어렵다.


“데이터 없으면 AI 발전도 없다”

데이터 노동 없이 AI산업 발전이 어려운 것도 사실이다. AI·블록체인 연구개발 업체 Aibb랩의 장동인 대표는 “인형 눈알 붙이기라고 할 수 있지만 이 방법 외에는 AI 발전의 핵심인 (질 좋은) 데이터를 얻을 수 없다”고 말했다.

이는 사람에게 어려운 일은 쉽게 여기고 사람에게 쉬운 일은 어렵게 여기는 AI의 특성과 관련이 있다. 미국 로봇 공학자 한스 모라벡의 이름을 딴 ‘모라벡의 역설’이다. 사람은 시각 경험으로 개와 고양이를 쉽게 구분할 수 있지만 ‘0와 1’로 이뤄진 이진법으로 작동하는 컴퓨터(AI)는 구별이 쉽지 않다. AI가 동물을 구별하기 위해선 대량의 동물 사진을 입력한 뒤 ‘학습’하도록 해야 한다. 이러한 ‘기계 학습’을 위해선 데이터를 AI가 공부(인식)하기 쉽게 만들어야 한다. 김학래 중앙대 문헌정보학과 교수는 “AI는 좋은 데이터에서 시작한다”며 “한국에 존재하는 데이터 자체가 적어서 늘리는 게 필요한 상황”이라고 말했다.

디지털 댐 일자리의 긍정적인 측면을 강조하는 목소리도 있다. 번역 크라우드소싱 업체 플리토의 이정수 대표는 “버스를 기다리며 스마트폰으로 한 문장 데이터를 만들 수 있고, 육아 탓에 번역 능력이 있음에도 활용하지 못하는 사람에게는 기회가 될 수 있다”며 “플랫폼을 열어두면 원하는 때에 원하는 만큼 일하고 돈을 버는 건데 ‘비정규직을 양산한다’ ‘불안정한 일자리다’로만 볼 필요는 없다”고 말했다.

김학래 교수도 “일자리 창출이라는 목표가 있고 AI 분야에서 한국의 산업 경쟁력을 만들어야 하는 상황을 고려하면 대규모 투자는 적절하다고 본다”고 말했다. 김 교수는 “만일 외국 기업이 제조업 관련 AI 학습용 데이터를 만들고 싶다고 했을 때 한국 업체가 전문성이 있다면 경쟁력이 있을 수 있다. 그런 부분까지 정책적으로 고려해서 추진한다면 단순히 ‘질 낮은 일자리’라고 매도할 수는 없다”고 말했다.

“경력 관리 기관 있어야”

데이터 관련 전문가들은 데이터 노동이 앞으로 급속도로 확대될 것이라는 데 이견이 없다. 신현구 한국노동연구원 고용영향평가센터 평가기획팀장은 “데이터를 만들고 활용하는 사람은 앞으로 늘어날 것”이라며 “좋은 일자리가 아니더라도 피해가긴 어렵다”고 말했다. AI 데이터 전문기업인 셀렉트스타의 김세엽 대표는 “AI 적용 분야는 계속 넓어져 모든 산업에서 AI가 쓰일 것이고 데이터산업도 계속 커질 것”이라고 말했다.


데이터 노동의 확대가 피할 수 없는 일이라면 새로운 노동 형태에 맞는 사회적 안전망을 구축할 필요가 있다. 국내 전문가들은 아직까지 구체적인 대안을 제시하지 못하고 있다. 미국 마이크로소프트 연구소의 메리 그레이와 시다스 수리는 지난해 책 ‘고스트 워크’에서 ‘미래 노동자’를 위한 안전망으로 ‘출산·육아·간병을 위한 유급휴가’와 ‘시에서 운영하는 공유 사무실’, ‘평생교육’이 필요하다고 주장했다.

이들은 또 데이터 노동자의 작업 경력을 기록할 제3의 기관이 필요함을 언급했다. 데이터 노동자들이 특정 플랫폼에서 일할 기회를 부당하게 박탈당했다고 느낄 경우 공개적으로 기업에 항의할 수 있도록 근거를 쌓아두자는 차원이다. 다른 플랫폼 노동 관련 논의에서와 마찬가지로 보편적 기본소득도 데이터 노동자를 지켜줄 안전망의 하나로 거론된다.

이광석 교수는 “점차 알고리즘에 기초한 노동 통제가 이뤄지고 있고, 계약 구조도 플랫폼을 중심으로 한 프리랜서 구조로 바뀌고 있다”며 “변화하는 노동의 패러다임 속에서 노동기본권에 대한 위협을 막기 위해 새로운 안전망이 요구된다”고 말했다.

이슈&탐사2팀 권기석 김유나 권중혁 방극렬 기자 keys@kmib.co.kr

[AI를 위해 일한다. 데이터 노동의 등장]
▶①
▶②
▶③
▶④