5일자 신문에 나온 수치들을 보자. 10여년 만에 소비자 물가 4% 돌파, 빵값도 9% 올라, 한덕수 ‘18억 보수’ 논란, 작년 국가부채 2200조 육박, 코로나19 사망자 209명, 서울 ‘소상공인 다시 서기’ 5배 확대, 1만원짜리 배달 수수료 3800원….
우리는 숫자에 둘러싸여 산다. 숫자로 세상을 이해한다. 숫자는 매우 유용하지만 위험하기도 하다. 불완전하고 부정확하고 때론 왜곡되거나 조작된다. 강연 참가자 중 50%가 내 강연을 좋게 평가하지 않았다는 숫자를 받았다고 해보자. 땅속으로 꺼져버리고 싶을 것이다. 그런데 평가에 참여한 사람이 단 두 명임을 알게 되면 어떨까.
세계 최고의 부자 빌 게이츠가 인도의 시골 마을을 방문해 시내버스에 타면 이 버스에 탄 가난한 승객들의 평균 재산은 모두 백만장자가 되고 만다. 평균값은 이렇게 현실을 왜곡하곤 한다. 통계학자들은 분포가 고르지 못한 상황에선 평균값보다 중앙값을 선호한다.
텍스트를 이해하기 위해서 문해력이 필요하듯 숫자를 보는 데도 독해력이 요구된다. 이번 주 나란히 출간된 ‘위험한 숫자들’과 ‘숫자에 속지 않고 숫자 읽는 법’은 숫자가 지배하는 세상에서 숫자의 위험을 피하고 숫자에 속지 않는 법을 알려준다.
‘위험한 숫자들’은 세상에 널리 알려진 숫자들을 자세히 들여다보면서 숫자에 대한 믿음을 돌아보게 한다. 국내총생산을 뜻하는 GDP는 아마 세상에서 가장 강력한 힘을 가진 숫자 중 하나일 것이다. 저자는 GDP의 역사를 소개하며 “그것은 오로지 정치적 의도로 탄생한 수치였다”고 말한다.
미국 정부는 경제학자이자 통계학자인 사이먼 쿠즈네츠에게 국민소득(national income)을 측정해달라고 요청했다. 1934년에 나온 그 수치는 그러나 정부의 맘에 들지 않았다. 정부는 전시상황에서 복지보다 무기에 돈을 쓰고 싶었는데, 쿠즈네츠의 방법에 따르면 그런 정부 지출은 국민소득의 감소를 의미하므로 결과적으로 전쟁 지원을 약화시킬 터였다. 그래서 다시 찾아낸 게 GDP라는 다른 측정값이었다. GDP는 국가에서 생산된 모든 재화와 서비스의 총 가치를 측정한다. 이에 따르면 새로 만든 폭격기도 경제에 이로웠다. 쿠즈네츠는 그 척도가 국가의 번영을 있는 그대로 나타낸다고 여기지 않았다. 하지만 1942년 최초의 미국 GDP가 발표됐고 현재까지 각국의 정책을 결정하는 데 가장 중요한 척도로 사용되고 있다.
인간 지능의 척도이자 ‘흑인이 백인보다 머리가 나쁘다’는 근거로 사용돼온 IQ 점수에 대해서도 저자는 “수를 오용한 가장 추악한 사례 중 하나”라고 말한다. 특히 측정하려는 지능이란 게 과연 무엇이냐는 질문을 던진다. IQ는 수열을 완성하고 은유를 이해하고 올바른 범주에서 생각하는 것을 측정한다. 거기에선 아픈 사람을 얼마나 돌볼 수 있는지, 나무 탁자를 만들 수 있는지, 사교력이 있는지 같은 능력은 측정되지 않는다. 지능을 ‘다양한 환경에서 목적을 달성하는 행위자의 능력’이라고 포괄적으로 정의한다면 IQ는 특정한 환경에서 능력만을 표시할 뿐이다.
저자는 “우리가 숫자를 진지하게 취급하려면 숫자의 한계도 전부 알아차리고 확인해야 한다”면서 “숫자의 이면에는 가치판단이 있다는 사실, 모든 것을 셀 수는 없다는 사실 그리고 숫자가 알려주지 못하는 내용도 아주 많다는 사실을 알아야 한다”고 말한다.
빅데이터의 위험성을 다룬 장은 이 책에서 가장 흥미로운 부분이다. 빅데이터 시대를 맞아 숫자의 힘은 어느 때보다 강해지고 있다. 저자는 우리가 뭘 좋아하는지, 뭘 중시하는지, 어떤 정치인을 좋아하는지 데이터를 통해 다 알 수 있는 것이라면 투표할 필요도 없이 인공지능 시스템으로 선거를 대체하면 어떠냐는 의견을 소개한다. 그러면서 우리의 중요한 결정을 수와 계산법에 맡기는 게 얼마나 위험한지 알려준다.
저자는 “갑론을박할 것도 없이 데이터에는 오류가 빈번하다”면서 “데이터에 결함이 있으면 알고리즘은 무용지물”이라고 강조한다. 데이터만이 아니라 알고리즘 자체도 문제다. 결코 객관적이지 않다. 알고리즘에는 어떤 결과를 원하는지가 반영되고 도덕적 선택이 관여한다.
‘위험한 숫자들’이 포괄적 설명이라면 ‘숫자에 속지 않고 숫자 읽는 법’은 더 구체적으로 숫자 보는 법을 알려준다. 실제 뉴스를 놓고 숫자가 어떻게 본질을 호도하고 오류를 낳는지 설득력 있게 보여준다.
도널드 트럼프 전 미국 대통령은 말라리아 치료제인 하이드록시클로로퀸을 코로나19 치료제로 추천한 적이 있다. 하이드록시클로로퀸 치료가 코로나19 환자의 바이러스 배출량 감소 및 소실과 유의미한 상관관계가 있다는 논문이 발표됐기 때문이다. 하지만 이 연구는 총 42명의 환자를 살펴본 것이다. 어떤 중요한 결론을 내기에는 표본 크기가 너무 작았다. 그런데도 이 연구는 전 세계 언론의 헤드라인을 장식했다.
발표된 숫자의 표본을 따져봐야 한다. ‘표본 크기’만 문제가 아니다. 표본의 대표성도 봐야 한다. ‘표집 편향’이라고 하는데 트위터에서 여론 조사를 하는 게 한 예가 될 수 있다. 아무리 표본 크기가 크다고 해도 트위터 여론은 국민 여론을 대표하지 못한다.
‘효과 크기’라는 개념도 중요하다. 자기 전에 누구는 전자책을 읽고 누구는 종이책을 읽으라고 한 후 수면 시간의 차이를 비교한 연구가 있다고 치자. 여기서 전차책을 읽는 사람이 더 늦게 잠드는 현상이 발견됐다고 하자. 그렇다면 “잠자리에 들기 전 전자책을 읽으면 수면시간이 줄어든다”고 보도해도 되는 걸까. 만약 줄어든 수면시간이 고작 1분이라면. 전자책 읽는 사람이 종이책 읽는 사람보다 1분 늦게 잠든다는 게 이 연구의 결론이라면 의미가 있을까.
두 책은 저널리스트가 썼다. 그래서 생생하고 흥미롭게 읽힌다. 어렵거나 장황하지 않은 것도 장점이다. 두 책 다 마지막 장에서 숫자를 이해하거나 다룰 때 요구되는 지침들을 정리해 놓았다.
김남중 선임기자 njkim@kmib.co.kr