전국을 89분간 혼란에 빠트렸던 KT 통신 장애는 명백한 인재였던 것으로 밝혀졌다. 허술한 관리 시스템과 안일한 작업 체계, 안전장치 미흡 등 곳곳에 뚫린 작은 구멍이 모여 초유의 통신 장애라는 거대한 구멍을 만들어낸 것이다.
과학기술정보통신부는 29일 KT 네트워크 장애 원인 분석 결과를 발표했다. KT는 지난 25일 오전 KT 부산국사에서 기업망 라우터(네트워크간 통신을 중개하는 장치)를 교체하는 과정에서 명령어를 누락했고, 사전 검토를 두 차례나 거치면서도 이 사실을 확인하지 못했다. 게다가 사전에 시험 과정을 진행하지 않았고, 당초 예정했던 26일 오전 1~6시가 아닌 낮 시간에 작업했다. 심지어는 KT 소속 작업 관리자가 자리를 비운 채 협력업체 소속 작업자끼리만 작업을 진행했다.
결과적으로 KT 통신 장애가 발생한 주 원인은 작업자가 라우팅 설정 명령어 입력을 마무리하면서 ‘exit(엑시트)’ 명령어를 누락했다는 것이다. 하지만 이 사고를 전국 단위로 키운 건 작업자의 단순한 실수 하나가 아니라 KT의 총체적 관리 부실이었다.
부산 지역 라우터에 설정된 잘못된 라우팅 경로가 전국 모든 지역 라우터로 연결되는 데 걸린 시간은 30초에 불과했다. 문제는 하나의 잘못된 경로 업데이트가 전국 라우터로 전파되는 과정을 차단해줄 안전장치가 KT에는 전혀 없었다는 점이다. 게다가 네트워크가 정상 연결된 채로 교체가 이뤄지면서 전국 망이 위험에 노출됐다.
전체 스크립트(명령글)에 오류가 있는지 사전에 두 차례나 검토하는 과정이 있었음에도 명령어 엑시트가 빠졌다는 사실을 알아채지도 못했다. 사람이 직접 검토하는 체계여서 미처 보지 못하고 넘어간 것이다. 이뿐 아니라 오류를 미리 발견해 수정할 수 있는 가상의 테스트 베드(시험공간)도 없었다.
이 같은 실수들이 전국 규모의 큰 피해로 이어진 건 교체 작업이 사람들의 활동이 활발한 오전 11시에 이뤄졌기 때문이다. 과기부 설명에 따르면 교체 작업을 담당했던 KT의 작업관리자와 협력업체 직원 양측이 합의 하에 야간작업을 주간에 진행했다고 한다. 작업자들은 단지 ‘야간작업보단 주간작업을 선호하기 때문’에 작업 시간을 바꿨다고 과기부 조사팀에 설명했다. 협력업체 직원들끼리만 작업을 진행했던 것 역시 KT 작업관리자가 ‘다른 업무가 있어’ 자리를 비운 것으로 확인됐다.
과기부는 KT에 통신 장애가 발생한 원인을 두고 공개적으로 질책하기도 했다. 허성욱 과기부 네트워크정책실장은 “네트워크 작업을 하려면 야간에 하고, 사전에 테스트를 하고 오픈하는 것 등은 10여년 전부터 통하는 기본 상식”이라며 “횡단보도를 초록불에 건너야 한다는 걸 어겨 교통사고가 난 것과 마찬가지인데 이런 부분도 정부의 규제 대상인지, 당황스러운 상황”이라고 말했다.
KT는 이날 정부 발표 이후 설명 자료를 내고 “네트워크 주간작업의 경우 일탈이 이뤄진 예외적인 사례이며, 이런 사례가 재발되지 않도록 프로세스를 강화하겠다”고 밝혔다. 이어 현재 우면동 KT 연구개발센터에서 운영하고 있는 테스트 베드를 전국 단위 현장까지 확대 적용하고, 이번에 전국적 장애를 야기한 ‘엣지망’ 단위 라우팅 오류도 국지적으로 차단할 수 있도록 하겠다고 했다. KT는 이날 오전 긴급이사회에서 논의한 피해보상안과 재발방지대책 등이 최종 결정되는 대로 발표한다는 방침이다.
정진영 기자 young@kmib.co.kr