DevOps/SRE

[SRE] SRE가 지켜야 할 SLA, SLI, SLO란?

기록하는 백앤드개발자 2025. 5. 28. 04:45
반응형


[SRE] SRE(Site Reliability Engineering) 목차

ㅁ 들어가며

SRE란 무엇인가? SRE는 단순한 ‘운영’이 아니다에서 서비스의 신뢰성(Reliability)을 코드와 시스템적으로 보장하는 엔지니어링 문화에 대해서 알아보았다. 이번 글에서는 SRE의 판단 기준이자 방향성이며, 실질적인 운영 목표인 SLA, SLO, SLI에 대해서 정리하였다.

 

ㅁ 의료 바이탈 체크와 SRE의 SLA, SLO, SLI


드라마나 영화를 보면 응급환자를 케어하는 의사가 먼저 활력징후(vital signs) 리스트를 체크하는 장면을 보곤 한다. 활력징후란, 온도, 맥박, 호흡, 혈압의 수치를 측정한 데이터로, 사람의 몸상태를 수치로 나타낸 것이다. 정확한 진단을 내리기 위해서는 정밀한 검사를 통해 얻은 활력징후를 통해서 응급상황인지 아닌지를 판단할 수 있다. 

 

ㅁ  SLI (Service Level Indicator): 바이탈의 측정값

 의사가 환자의 건강 상태를 확인할 때 혈압, 맥박, 체온, 산소포화도 같은 수치를 측정한다.
이처럼 SRE에서의 SLI는 서비스의 상태를 나타내는 ‘지표’이다.

 

의학적 비유

   SLI = 혈압, 맥박, 체온 등 개별 바이탈 수치

 

지표의 예

 - 웹 요청 중 정상 응답 비율

 - 요청 처리 지연 시간의 퍼센티지

 - 에러율

 - 시스템 가용성 (Availability)

 

예시

 - 한 API 서버의 SLI는 “1분간 200 OK 응답 비율이 99.95% 이상인지”가 될 수 있다.

 

ㅁ SLO (Service Level Objective): 목표 수치(정상 범위)

의료 현장에서는 각 바이탈마다 정상 범위가 정해져 있다. 

예를 들어, 정상 체온은 36.5~37.5°C, 정상 혈압은 120/80mmHg 이하와 같이 기준이 있다.
SRE의 SLO(Service Level Objective)는 SLI에 기반해 “이 정도 수치 이상이면 건강(신뢰성)이 보장된다”는 목표값이다.

 

의학적 비유

  SLO = 정상 혈압, 정상 체온 등 각 바이탈의 정상 범위

 

예시

 - “월간 API 성공 응답률을 99.9% 이상 유지하자”

 - “P95 응답 시간이 500ms 이하여야 한다”

 

ㅁ SLA (Service Level Agreement): 공식 계약(치료 목표와 합의)

환자와 의료진 사이에는 치료 목표와 합의가 있다. 예를 들어, “수술 후 3일 이내에 체온이 38°C를 넘지 않아야 한다”와 같은 명확한 약속이 존재한다.
SRE의 SLA(Service Level Agreement)는 서비스 제공자와 고객이 맺는 공식 계약으로, SLO를 기준으로 최소 성능을 약속한다. SLA를 위반하면 보상 등 법적 책임이 따른다

 

의학적 비유

  SLA = 환자와 의료진 간의 치료 목표 및 합의(예: 수술 후 회복 목표, 합병증 발생 시 조치 약속)

 

예시

 - “SLA 99.5% 미만의 가용성일 경우, 고객에게 월 요금의 10%를 크레딧으로 지급”

 - SLA는 현실적으로 SLO보다 낮은 수치로 설정되는 경우가 많다. 왜냐하면 법적 책임이 따르기 때문이다.

 

ㅁ 실무에서의 적용 사례

내가 운영했던 금융권 메시징 시스템에서는,

  • SLI: 발송 성공률, 메시지 지연률, Redis 큐 상태 등 실시간 지표를 모니터링했고
  • SLO: “발송 성공률 99.98% 이상 유지”를 내부 목표로 설정했으며
  • SLA: 고객사(은행)와의 계약에서는 “월간 가용성 99.5% 이상” 조건이 포함되어 있었다.

이 수치를 기준으로 Amazon CloudWatch의 지표, Whatap, Grafana를 통해 알림과 대시보드를 구성하고, SLO 위반 시 즉각적인 원인 분석과 후속 보고를 수행했다.

 

📌 요약

구분 의미 대상 예시
✅ SLI 지표 (측정값) 시스템 내부 에러율, 응답 시간
🎯 SLO 목표 (내부 기준) SRE 팀 성공률 99.9%
📃 SLA 계약 (외부 고객 대상) 고객 월 가용성 99.5% 이상
 

ㅁ 마무리

SLI → SLO → SLA는 단순히 문서에만 존재하는 개념이 아니다.
운영 자동화, 장애 대응, 알람 임계치 설정, 릴리즈 판단 기준까지
모두 이 3단계를 기준으로 결정된다. 

 

 - SLI는 바이탈 수치(혈압, 맥박 등)처럼 서비스의 실제 상태를 측정하는 지표다.
 - SLO는 각 바이탈이 정상 범위에 들어야 하듯, 서비스가 지켜야 할 목표 수치다.
 - SLA는 환자와 의료진이 합의하는 치료 목표처럼, 서비스 제공자와 고객이 맺는 공식 약속이다.

의사가 바이탈을 지속적으로 체크해 환자의 건강을 지키듯, SRE는 SLI를 모니터링하고 SLO/SLA 기준을 지키며 시스템의 신뢰성을 보장한다.

🎯 SRE는 이 기준을 지키며 시스템을 안정적으로 “지속” 가능하게 만드는 사람이다.

 

반응형