윤성식 금융윤리인증센터 교수
윤성식 금융윤리인증센터 교수

지난 9월 26일, 국가정보자원관리원의 리튬이온 배터리 폭발 화재 사고로 709개의 국가정보시스템이 심각하게 손상되었다. 한 달이 넘도록 온전히 복구되지 않아 국민들의 불편과 피해가 이만저만이 아니다.

온라인 민원 서비스와 우체국 업무 등이 중단되거나 장애를 겪었고, 119 긴급출동 신고 시스템마저 부분 장애를 겪으며 국가 안전망에 심각한 균열이 생겼다. 정부와 공공기관의 내부 업무에도 차질이 발생했다.

더욱 충격적인 것은 중앙부처 공무원들이 사용하던 업무용 자료 클라우드 저장소인 G드라이브(858TB)의 원본과 백업 데이터가 같은 시설에 보관돼 있다가 동시에 전량 소실됐다는 사실이다. 백업 시스템에 대한 기본적인 물리적 분산 원칙조차 지키지 않아 국가적 데이터를 송두리째 잃어버렸으니, 가히 초유의 '디지털 국난(國難)'이라 불릴 만하다.

사고 원인은 배터리 전원 차단 관련 업무상 부주의와 사용기한 경과 배터리 관리 실패 등이 복합적으로 작용하여 발생한 인재라는 지적이 있다. 이 엄청난 국가적 재난의 책임 소재가 어떻게 규명될지 궁금한 이유이기도 하다.

이번 사태는 우리 디지털 정부의 재해복구(DR) 및 업무 연속성(BC) 역량이 얼마나 취약한지 여실히 드러냈다. 2001년 9·11 테러 당시 IT 재해복구 시스템으로 다음날 업무를 바로 정상화한 모건 스탠리나, 2022년 SK C&C의 판교 데이터센터 화재 이후 이중화 이상의 재난복구 시스템을 구축한 카카오의 사례와 비교하면 그 격차는 더욱 분명해진다.

재난은 불가항력적인 천재지변이든 인재든 '문득' 찾아온다. 중요한 것은 재난에 매몰되지 않고 즉각적인 회복탄력성(Resilience)을 발휘해 업무 연속성을 유지하는 것이다. '회복탄력성'은 재난 속에서 다시 일어서서 정상적인 업무를 지속할 수 있는 역량을 뜻한다.

ISO 22301의 사업 연속성 관리 시스템(BCMS)과 세계내부감사인협회(IIA)의 사업 연속성 관리(BCM) 실무 지침을 토대로, 조직이 재난에서 즉각적인 회복탄력성을 확보할 방안을 제시한다.

첫째, 사업 연속성 관리(BCM) 거버넌스를 확립하고 최고경영진의 리더십을 강화해야 한다. 재난에 대비한 BCM은 조직이 회복탄력성을 발휘해 지속적으로 존속하기 위한 일종의 보험증서다. BCM 조직, 인력, 관련 규정 및 프로그램, 교육훈련, 재난 관리 문화, 예산 편성 등 BCM 거버넌스를 확립하고 최고경영진의 지속적 의지와 지원을 강화해야 한다.

또한 재난 위험을 식별 및 분석∙평가하여 적절한 대응 방안을 강구하는 등 재난 위험 관리(RM)와 사업 연속성 관리(BCM)가 조직의 전략적 목표와 일치하도록 이사회와 최고경영진의 주기적 검토와 승인이 필요하다.

둘째, 고도화된 사업 연속성 및 재해복구 계획(BCRP)을 구축해 실질적인 이중화 체계를 실현해야 한다. 백업 시스템에 대한 물리적 분산 원칙을 지키고, 두 센터가 실시간으로 데이터를 동기화하여 한쪽에 장애가 발생하면 다른 쪽이 자동으로 서비스를 인계받아 중단 없는 운영을 보장해야 한다.

BCRP 수립 시 사업영향도 분석(BIA)으로 복구 우선순위를 결정하고, 목표복구시간(RTO)과 목표복구시점(RPO)을 핵심 업무의 중요도에 맞게 엄격히 정의해야 한다. 주기적 모의훈련으로 복구 계획의 실효성을 검증∙개선하는 것도 필수다.

셋째, 재난 위험을 완화하기 위한 물리적 방재 시스템 혁신이 시급하다. 리튬이온 배터리 화재처럼 일반 소화약제로 진화하기 어려운 화염과 열 확산을 차단하는 장비를 갖춰야 한다. 전산실 등 중요 시설에는 내화격벽을 의무적으로 설치할 필요가 있다.

또한 장애 발생 시 파급효과가 큰 네트워크 등 공통 장비가 무관심 속에 교체 후순위로 밀리는 관행을 철폐하고, 장비의 내용연수 산정 기준을 현실화해 교체를 의무화해야 한다. 그래서 평소 재난에 최적의 대비 태세를 갖추는 것이 무엇보다 중요하다.

넷째, 조직의 내부감사는 독립적 시각으로 BCM의 적절성을 주기적으로 점검해야 한다. 경영진의 의지와 지원, 재난 위험 평가 및 대응, 사업영향도 분석(BIA)에 의한 복구 우선순위, 사업복구 및 연속성 전략(BCRP), 교육 및 모의훈련 현황, 유지보수 내용 등을 체크리스트에 의거 주기적으로 점검하고 경영진과 소통해 문제점을 개선해 나가야 한다.

실제 재난 발생 시에는 경영진의 재난 대응 상황을 모니터링하여 회복탄력성 확보를 위해 적절히 조언하고, 사후에는 복구 효과성 평가, 근본원인 분석, 재난 및 복구를 반영한 BCM 업데이트 현황 등을 검증하여 재발 방지를 위한 통찰을 제공해야 한다.

이번 국가정보자원관리원 사태처럼 회복탄력성 부재의 민낯을 보이지 않기 위해서는 재난 관리 인프라의 근본적인 보호 및 재난복구 체계를 조속히 실현하여 조직의 회복탄력성을 극대화해야 한다. 그렇지 않으면 다음 재난 역시 '예고된 참사'가 될 수 있기 때문이다.

전란∙화재∙재해 등으로부터 조선왕조실록을 지키기 위해 전국 네 곳의 사고(史庫)에 분산 보관했던 조상의 지혜를 깊이 새겨야 할 때다.

저작권자 © 이비엔(EBN)뉴스센터 무단전재 및 재배포 금지