전국을 89분간 혼란에 빠트렸던 KT 통신 장애는 명백한 인재였던 것으로 드러났다. 허술한 관리 시스템과 안일한 작업 체계, 안전장치 미흡 등 곳곳에 뚫린 작은 구멍이 모여 초유의 통신 장애라는 거대한 구멍을 만들어냈다.
과학기술정보통신부는 29일 KT 네트워크 장애 원인 분석 결과를 발표했다. KT는 지난 25일 오전 KT 부산국사에서 기업망 라우터(네트워크 간 통신을 중개하는 장치)를 교체하는 과정에서 명령어를 누락했고, 검토 과정에서 이 사실을 확인하지 못했다. 사전에 시험 과정 역시 없었고, 당초 예정했던 26일 오전 1~6시가 아닌 낮 시간에 작업했다. 심지어는 작업관리자 없이 협력업체 소속 작업자끼리만 작업을 진행했다.
통신 장애가 발생한 주 원인은 작업자가 라우팅 설정 명령어 입력을 마무리하면서 ‘exit(엑시트)’ 명령어를 누락한 탓이지만, 이 사고를 전국 단위로 키운 건 KT의 총체적 관리 부실 때문이었다. 부산 지역 라우터에 설정된 잘못된 라우팅 경로가 전국 모든 지역 라우터로 연결되는 데 걸린 시간은 30초에 불과했다.
문제는 하나의 잘못된 경로 업데이트가 전국 라우터로 전파되는 과정을 차단해줄 안전장치가 KT에는 전혀 없었다는 점이다. 게다가 네트워크가 정상 연결된 채로 교체가 이뤄지면서 전국 망이 위험에 노출됐다.
전체 스크립트(명령글)에 오류가 있는지 사전에 두 차례나 검토했음에도 명령어가 빠졌다는 사실을 알아채지 못했다. 사람이 직접 검토하는 체계여서 놓친 것이다. 이뿐 아니라 오류를 미리 발견해 수정할 수 있는 가상의 테스트 베드(시험공간)도 없었다.
이 같은 실수들이 전국 규모의 큰 피해로 이어진 건 교체 작업이 사람들의 활동이 활발한 오전 11시에 이뤄졌기 때문이다. 과기부에 따르면 교체 작업을 담당한 KT 작업관리자와 협력업체 직원 양측 합의 하에 야간작업을 주간에 진행했다. 작업자들은 단지 ‘야간작업보다는 주간작업을 선호하기 때문’에 작업 시간을 바꿨다고 과기부 조사팀에 설명했다. 협력업체 직원들끼리만 작업을 진행했던 것도 KT 작업관리자가 ‘다른 업무가 있어’ 자리를 비웠기 때문인 것으로 확인됐다.
정부는 KT를 공개적으로 비판했다. 허성욱 과기부 네트워크정책실장은 “횡단보도를 초록불에 건너야 한다는 걸 어겨 교통사고가 난 것과 마찬가지인데 이런 부분도 정부의 규제 대상인지 당황스러운 상황”이라고 말했다.
KT는 이날 긴급이사회를 열어 피해보상안과 재발방지대책 등을 논의했다. 보상안은 마련되는 대로 발표할 방침이다.
정진영 기자 young@kmib.co.kr