본문 바로가기

자격증/AWS Certified Security - Specialty

[AWS SCS] AWS CloudWatch Alarms

728x90
반응형

AWS CloudWatch Alarms: 효과적인 모니터링과 자동화의 핵심

AWS CloudWatch Alarms는 클라우드 인프라에서 메트릭 기반으로 모니터링을 수행하고, 조건에 따라 알림을 보내거나 자동화된 작업을 수행하도록 설계된 강력한 도구입니다. 이번 글에서는 CloudWatch Alarms의 핵심 개념과 활용 방법을 알아보겠습니다.


CloudWatch Alarm의 기본 동작

CloudWatch Alarm은 메트릭의 상태를 모니터링하며, 다음 세 가지 상태를 가질 수 있습니다:

  • OK: 메트릭이 설정된 임계값 내에 있음.
  • INSUFFICIENT_DATA: 알람의 상태를 결정하기에 충분한 데이터가 없음.
  • ALARM: 설정된 임계값을 초과하여 알람이 트리거된 상태.

알람은 평가 기간(Period) 동안 메트릭 데이터를 기반으로 상태를 판단합니다. 이 기간은 10초에서 여러 분까지 설정 가능하며, 고해상도 메트릭(high-resolution metrics)에도 적용할 수 있습니다.


주요 활용 사례

  1. EC2 인스턴스 관리
    • 특정 조건에 따라 EC2 인스턴스를 자동으로 정지(Stop), 종료(Terminate), 재부팅(Reboot) 또는 복구(Recover) 작업 수행.
  2. Auto Scaling 트리거
    • Auto Scaling 그룹의 스케일 아웃(Scale Out) 또는 스케일 인(Scale In) 작업을 트리거하여 시스템 부하를 효율적으로 관리.
  3. SNS 알림 전송
    • Amazon SNS를 통해 이메일, 문자 메시지 또는 Lambda 함수와 같은 다른 AWS 서비스와 연동 가능.

Composite Alarms: 복합 조건 모니터링

Composite Alarms는 여러 개의 단일 알람 상태를 조합해 보다 복잡한 조건을 모니터링할 수 있도록 설계되었습니다.

  • AND/OR 조건을 활용해 알람 상태를 조합할 수 있습니다.
  • 여러 조건을 결합함으로써 불필요한 알림 노이즈를 줄이고, 중요한 문제에만 초점을 맞출 수 있습니다.

예시: EC2 인스턴스의 복합 조건 모니터링

  1. Alarm A: CPU 사용률 모니터링.
  2. Alarm B: IOPS(초당 입출력) 모니터링.
  3. Composite Alarm: Alarm A와 B가 모두 ALARM 상태일 때 알림을 트리거.

이 방식은 더 정교한 모니터링과 자동화 작업을 가능하게 합니다.


EC2 상태 체크와 복구

CloudWatch Alarms는 EC2 인스턴스의 **상태 체크(Status Check)**를 모니터링하여 문제가 발생했을 때 자동으로 복구 작업을 수행할 수 있습니다.

  • 상태 체크 종류:
    • 인스턴스 상태 체크: 가상 머신에서 발생하는 문제를 모니터링.
    • 시스템 상태 체크: 호스트 하드웨어 및 네트워크 계층을 점검.
    • EBS 상태 체크: 연결된 EBS 볼륨의 상태를 확인.

복구 시 유지되는 정보

  • IP 주소: Private, Public, Elastic IP.
  • 메타데이터 및 배치 그룹 정보: 복구 후에도 동일하게 유지.

복구 작업이 수행될 경우, SNS를 통해 알림을 받을 수 있도록 설정할 수 있습니다.


CloudWatch Logs와의 연동

CloudWatch Alarms는 CloudWatch Logs Metric Filter와 연동해 로그 데이터를 기반으로 알람을 생성할 수 있습니다.

  • 활용 예:
    • 로그에 "error"라는 단어가 10번 이상 발생하면 알림 전송.
    • 특정 이벤트를 감지해 Lambda 함수 실행.

알람 및 알림 테스트

CLI 명령어 set-alarm-state를 사용해 알람을 강제로 트리거할 수 있습니다.

  • 테스트를 통해 알람이 예상대로 동작하는지, 알림 설정이 올바른지 확인 가능.

결론

CloudWatch Alarms는 AWS 환경에서 안정적인 모니터링과 문제 해결을 위한 필수 도구입니다.
기본 알람부터 복합 조건을 활용한 Composite Alarms까지 폭넓은 기능을 제공하며, 자동화된 인프라 관리에 큰 도움을 줍니다.

728x90
반응형