DevOps/SRE

[SRE] SRE 모니터링 방법론: USE Method, RED Method, Four Golden Signals 정리

기록하는 백앤드개발자 2025. 6. 15. 08:04
반응형


[SRE] SRE(Site Reliability Engineering) 목차

 

ㅁ 들어가며

[SRE] 실전에서 배우는 SLI: CloudWatch와 Grafana로 신뢰성 확보하기에서는 SRE의 시선에서 SLI를 어떻게 "정의하고, 모니터링하고, 개선"했는지를 제가 경험한 내용을 바탕으로 설명하고자 하였다.

  “무엇을, 어떻게 모니터링할 것인가?”에 대한 명확한 기준이 없다면, 수많은 지표 속에서 중요한 신호를 놓치기 쉽다. 이 글에서는 SRE와 DevOps 현장에서 널리 활용되는 대표적인 모니터링 방법론인 USE Method, RED Method, Four Golden Signals를 정리하여, 실무에 바로 적용할 수 있는 방법론을 제시하고자 한다.

 

ㅁ USE Method

USE Method(Utilization, Saturation, Errors)는 시스템 인프라의 성능과 병목을 체계적으로 진단하기 위해 Brendan Gregg가 제안한 방법론이다.

 

Utilization(활용률)
리소스가 실제로 얼마나 바쁘게 사용되고 있는지(예: CPU 사용률, 디스크 I/O 사용률)

 

Saturation(포화도)
리소스가 한계에 다다라 대기 중인 작업이 얼마나 있는지(예: 큐 길이, 대기 요청 수)

 

Errors(에러)
리소스에서 발생한 실패나 오류(예: 디스크 읽기 실패, 네트워크 패킷 손실)

 

설명
각 리소스별로 세 가지 지표만 추적하면 병목과 장애의 원인을 빠르게 파악할 수 있어, 인프라 운영의 기본 툴로 널리 활용된다. 
예시) CPU의 경우, 사용률(%)·런큐 길이·CPU 에러를, 디스크는 I/O 사용률·대기 큐·I/O 실패를 각각 모니터링한다.

 

ㅁ RED Method

RED Method(Rate, Errors, Duration)는 마이크로서비스와 API 기반 시스템의 성능과 신뢰성을 모니터링하기 위한 서비스 중심 방법론이다.

 

ㅇ Rate(요청률)

초당 처리되는 요청 수(Throughput)로, 트래픽 패턴과 부하를 파악

 

Errors(오류율)

실패한 요청의 비율 또는 수(예: HTTP 5xx, 4xx 등)로, 서비스 신뢰성 평가

 

Duration(응답 시간)

요청이 처리되는 데 걸리는 시간(지연 시간, Latency)으로, 성능 저하 조기 감지

 

셜명
서비스 요청 단위로 모니터링해 사용자 경험에 밀접하게 대응하며, SLI/SLO 설계의 기초가 된다.

예시) HTTP API, gRPC 등 요청 기반 서비스에서 각 엔드포인트별로 RED 지표를 모니터링하면 장애 감지와 원인 분석이 쉬워진다.

 

ㅁ Four Golden Signals

Four Golden Signals는 Google SRE가 제안한, 서비스 신뢰성과 성능 모니터링을 위한 네 가지 핵심 지표이다.

 

Latency(지연 시간)

요청~응답까지 걸리는 시간(정상/에러 구분)

 

Traffic(트래픽)

시스템이 처리하는 요청량(초당 요청 수, 데이터 전송량 등)

 

Errors(에러율)

실패한 요청의 비율 또는 수(HTTP 에러, 타임아웃 등)

 

Saturation(포화도)

시스템 자원이 얼마나 한계에 가까운지(예: CPU, 메모리, 큐 길이 등)

 

설명

복잡한 분산 시스템에서도 최소한으로 꼭 모니터링해야 할 핵심 지표로, 서비스 품질과 장애 대응에 매우 효과적이다.

이 네 가지 신호를 모니터링하면 트래픽 급증, 자원 포화, 지연/에러 증가 등 장애의 흐름을 빠르게 파악할 수 있다.

 

ㅁ 마무리

SRE의 모니터링은 단순히 많은 지표를 수집하는 것이 아니라,
핵심 신호에 집중해 문제를 빠르게 감지하고, 신뢰성 있는 서비스를 유지하는 것이 목표이다.

  USE Method, RED Method, Four Golden Signals는 각각 인프라, 서비스, 전체 시스템 관점에서 꼭 필요한 지표만을 골라 집중적으로 모니터링하는 실전적 방법론이다.

 이 세 가지를 적절히 조합하면, 복잡한 시스템의 건강 상태를 빠르고 효과적으로 파악하고 장애를 신속하게 감지·대응할 수 있다.

 

ㅁ 함께 보면 좋은 사이트

당근마켓 서비스를 모니터링하는 방법 | 당근 SRE 밋업 3회

골든 시그널(Golden Signals)이란?

 

반응형