기술 기준 문서

TECHNICAL STANDARD

네트워크 장애 복구 기준

Network Failure Recovery

네트워크 인프라

Network Infrastructure

네트워크 장애 복구는 단순히 연결을 다시 살리는 작업이 아니라, 어떤 계층에서 무엇이 끊겼는지 확인하고 최소 범위부터 질서 있게 복원하는 과정이다.

스위치 전원 문제, 업링크 단절, 포트 불량, 구성 변경 오류, 루프 발생은 겉으로는 모두 통신 불가로 보일 수 있으므로, 복구 순서와 우선순위를 먼저 정해 두어야 한다.

장애 복구에서 가장 위험한 방식은 증상만 보고 장비를 임의로 재연결하거나 설정을 동시에 여러 곳에서 바꾸는 것이다. 이런 대응은 일시적으로 통신이 살아나더라도 원인 추적을 더 어렵게 만든다. 따라서 복구는 전원, 물리 링크, 업링크, VLAN 경로, 장비 역할, 최근 변경 이력을 순서대로 확인하며, 가장 작은 복구 단위부터 복원하는 기준이 필요하다.

01

문제

네트워크 장애는 원인이 하나라도 영향은 넓게 퍼질 수 있다. 코어 스위치 장애는 전체 구간에 영향을 주고, 업링크 단절은 특정 층이나 구역 전체를 끊을 수 있으며, 루프나 VLAN 오동작은 일부 장비만이 아니라 광범위한 지연과 통신 불안을 만들 수 있다. 이때 복구 기준이 없으면 현장에서 임의 연결, 포트 교체, 장비 재시작이 반복되어 오히려 복구 시간을 늘릴 수 있다.

복구가 늦어지는 가장 큰 이유는 장애 자체보다, 어떤 계층부터 확인해야 하는지 기준이 없기 때문이다.

02

현장 환경

복구 기준이 필요한 환경은 일반적으로 여러 스위치와 업링크가 연결된 구조이다. 단자함과 층별 분산 구조가 있고, 무선 AP, CCTV, 서버, NAS처럼 서로 다른 장비군이 같은 네트워크 안에 공존하며, 일부 구간은 PoE 전원까지 함께 공급된다. 이런 환경에서는 장애가 한 곳에서 시작돼도 여러 장비 증상으로 나타날 수 있다.

  • 코어와 액세스 계층이 구분된 환경
  • 업링크가 다수 존재하는 환경
  • PoE 장비와 일반 단말이 함께 있는 환경
  • 층별 또는 구역별 단자함이 분산된 환경
  • 변경 작업과 유지보수가 반복되는 환경
03

설계 판단

장애 복구는 가장 상위 계층부터 무조건 보는 방식보다, 전원과 물리 링크를 먼저 확인하고 그다음 영향 범위를 기준으로 계층을 좁혀 가는 편이 현실적이다. 일반적으로 전원 여부, 링크 상태, 업링크 단절 여부, 코어 또는 메인 스위치 상태, 최근 변경 이력, VLAN 또는 루프 문제를 순서대로 확인하는 구조가 안정적이다. 중요한 점은 원인 미확정 상태에서 설정 변경을 누적하지 않는 것이다.

  • 전원과 물리 링크를 가장 먼저 확인한다.
  • 장애 범위를 전체/구역/단말 단위로 나눈다.
  • 업링크 단절 여부를 우선 확인한다.
  • 최근 변경 작업과 임시 연결 이력을 함께 본다.
  • 원인 확정 전까지 동시다발적 설정 변경을 피한다.

복구 기준의 목적은 빨리 손대는 것이 아니라, 잘못 건드리지 않고 최소 단위부터 정상 상태를 복원하는 데 있다.

04

구현 방법

실제 복구 단계에서는 먼저 전원과 링크 LED, 포트 상태, 업링크 연결 여부를 육안으로 확인하고, 그다음 어느 구역이 동시에 끊겼는지 범위를 나눈다. 단일 단말 문제인지, 액세스 스위치 구간 문제인지, 코어 또는 메인 업링크 문제인지 계층을 좁힌 뒤, 가장 작은 영향 범위에서부터 정상 경로를 복원한다. 복구 후에는 임시 우회 경로와 라벨 상태를 반드시 다시 정리해야 같은 문제가 반복되지 않는다.

  • 전원 상태와 물리 링크 상태 확인
  • 영향 범위를 전체/구역/포트 단위로 구분
  • 업링크 단절 여부와 코어 연결 상태 확인
  • 필요 시 최소 단위 우회 복구 후 원인 재확인
  • 복구 후 임시 연결과 변경 이력 정리
05

참고 사항

장애 복구에서 자주 발생하는 오류는 문제 구간이 확정되지 않았는데 케이블을 동시에 여러 군데 옮기는 것, 포트 역할을 확인하지 않고 업링크를 일반 포트에 임시 연결하는 것, 루프 가능성이 있는 우회 연결을 그대로 남겨 두는 것이다. 또한 복구가 끝난 뒤 원상 구조와 문서 상태를 정리하지 않으면 다음 장애 때 더 큰 혼선이 발생할 수 있다.

이 문서는 장애 상황별 명령어 문서가 아니라, 현장에서 네트워크를 어떤 순서와 기준으로 복구할 것인지에 대한 구조 기준 문서이다.

06

관련 카테고리와 연관 문서, 전체 문서 목록으로 이동할 수 있다.

07

적용 사례

장애 정리, 병목 해소, 이전 전환 과정에서 복구 기준이 함께 검토된 사례를 확인할 수 있다.