[SRE] SRE는 어떻게 일할 것인가?

Notice

Recent Posts

Recent Comments

Link

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

피터의 개발이야기

[SRE] SRE는 어떻게 일할 것인가? 본문

DevOps/SRE

[SRE] SRE는 어떻게 일할 것인가?

기록하는 백앤드개발자 2025. 5. 29. 16:02

[SRE] SRE(Site Reliability Engineering) 목차

ㅁ 들어가며

내가 현재 속해 있는 팀인 카카오 i 플랫폼의 Gateway는 방대한 MSA(Microservices Architecture) 환경에서 트래픽을 집약하고, 서비스 간 연결의 허브 역할을 한다.

이런 복잡한 구조에서 서비스 안정성을 확보하고, 효율적인 운영을 위해 SRE(Site Reliability Engineering) 개념의 도입은 필수적입니다. 본 글에서는 SRE의 핵심 개념과, Gateway 서비스에 적합한 SRE 지표 수립 방법을 정리합니다.

ㅁ SRE란 무엇인가?

SRE는 구글에서 시작된 운영 및 개발 방법론으로, 소프트웨어 엔지니어링 원칙과 자동화를 통해 대규모 시스템의 신뢰성과 안정성을 확보하는 것을 목표로 합니다. SRE는 DevOps의 실질적 구현체로, 개발과 운영의 경계를 허물고 데이터 기반의 의사결정, 자동화, 책임 공유, 문화적 변화를 강조합니다.

ㅁ SRE의 핵심 원칙

가용성(Availability)에 대한 명확한 정의와 목표 설정
장애 발생에 대한 조직적 책임 공유와 포스트모템 문화
데이터 기반의 합리적 의사결정
자동화와 효율적 운영, 지속적 개선

ㅁ SRE의 주요 역할

SRE 엔지니어는 다음과 같은 업무에 집중합니다.

Metric & Monitoring: 서비스 상태를 나타내는 핵심 지표(SLI)를 정의하고, 목표(SLO)를 설정하여 모니터링합니다.
Capacity Planning: 트래픽 변화와 비즈니스 성장에 맞춰 자원을 효율적으로 계획합니다.
Change Management: 배포 및 변경 과정에서 장애를 최소화하기 위해 자동화와 점진적 배포, 롤백 체계를 구축합니다.
Emergency Response: 장애 발생 시 신속한 복구(Playbook 기반)와 반복 훈련을 통해 MTTR(Mean Time to Recover)을 단축합니다.
문화(Culture): 데이터 기반 의사결정, 책임 공유, 포스트모템, Error Budget 등 SRE 원칙이 조직에 정착하도록 주도합니다.

ㅁ SRE 지표 수립 방법론

1. SLI(Service Level Indicator) 정의

SLI는 서비스의 신뢰성과 품질을 수치로 표현하는 핵심 지표입니다. Gateway와 같은 핵심 인프라에서는 다음과 같은 SLI를 고려할 수 있습니다.

Availability(가용성): 전체 요청 중 정상적으로 처리된 비율
Latency(지연 시간): 요청의 95%, 99%가 몇 ms 이내에 처리되는지
Error Rate(오류율): 전체 요청 대비 5xx, 4xx 오류 응답 비율
Throughput(처리량): 초당 처리 요청 수(QPS), 트래픽 양
Saturation(포화도): 시스템 자원(CPU, 메모리, 네트워크 등)의 사용률

2. SLO(Service Level Objective) 설정

SLO는 SLI에 대한 구체적인 목표값입니다. 예를 들어, "월간 가용성 99.95% 이상", "95% 요청의 응답 시간이 300ms 이하"와 같이 명확하게 수치로 정의합니다.

3. SLA(Service Level Agreement)와의 구분

SLA는 외부 고객과 맺는 서비스 품질 보장 계약입니다. SLO는 내부적인 목표이지만, SLA는 이를 바탕으로 고객과의 신뢰를 약속하는 공식 문서입니다.

4. Error Budget(에러 버짓) 개념 도입

Error Budget은 SLO에서 허용하는 장애 시간의 총합입니다. 예를 들어 SLO가 99.9%라면, 한 달에 약 43분의 장애가 허용됩니다. 이 범위 내에서는 신규 기능 배포 등 변화에 집중할 수 있고, 초과 시엔 안정성 개선에 집중합니다.

ㅁ Gateway에 적합한 SRE 지표 예시

SLI	SLO 예시	모니터링/활용 방안
Availability	월간 99.95% 이상	장애 감지, Error Budget 관리
Latency	95% 요청 300ms 이하	응답 지연 원인 분석, 성능 개선
Error Rate	0.1% 이하	장애 징후 조기 탐지, 회고 자료
Throughput	초당 10,000 QPS 이상 처리 가능	용량 계획, 스케일링 정책 수립
Saturation	CPU 80% 이하, 메모리 75% 이하	자원 증설/최적화 의사결정

ㅁ SRE 지표 수립 및 운영 실천 가이드

지표의 선정: 실제 서비스 품질과 직결되는 지표만을 선정. 너무 많은 지표는 오히려 혼란을 야기할 수 있음.
목표치 합의: 개발, 운영, 비즈니스 등 모든 이해관계자와 SLO 목표치를 합의. 경영진의 동의가 필수
대시보드 구축: 실시간 모니터링 시스템 구축, 주요 지표를 시각화하여 투명하게 공유
포스트모템 문화: 장애 발생 시 비난보다는 원인 분석과 재발 방지에 집중. 개선사항은 문서화하여 공유
Error Budget 관리: Error Budget 소진 시 신규 기능 배포 중단, 안정성 개선에 집중

ㅁ 마무리

SRE는 단순히 운영팀의 역할을 넘어, 데이터 기반의 의사결정과 자동화, 책임 공유, 문화적 변화를 통해 서비스의 신뢰성과 품질을 극대화하는 현대적 운영 방식입니다. 카카오 i 플랫폼 Gateway와 같은 핵심 인프라에 SRE를 도입하면, MSA 환경에서의 복잡성과 변화에 능동적으로 대응하며, 서비스 안정성을 체계적으로 확보할 수 있습니다.

'DevOps > SRE' 카테고리의 다른 글

[SRE] SRE 참고서로서 『The Art of Capacity Planning』 (4)	2025.06.12
[SRE] SRE는 단순한 운영을 넘는 엔지니어링 문화이다. (1)	2025.06.12
[SRE] 실전에서 배우는 SLI: CloudWatch와 Grafana로 신뢰성 확보하기 (2)	2025.05.28
[SRE] SRE가 지켜야 할 SLA, SLI, SLO란? (2)	2025.05.28
SRE란 무엇인가? SRE는 단순한 ‘운영’이 아니다 (1)	2025.05.23