개발자의 장애 공유 문화
카카오에 처음 들어가서 놀랐던 또 한 가지는 장애를 공유하는 문화였습니다.
작고 큰 장애들이 자주 발생했습니다.
장애가 발생하면 즉시 전파하고, 원인을 파악하고 후속 대응까지 실시간으로 공유했습니다.
누구에게? 회사의 모든 사람들에게.
CS 부서나 운영팀처럼 상황을 빠르게 파악해야 하는 팀에게는 멘션까지 하면서.
와, 이 사람들 특이한 사람들이네. 이런 건 살다 살다 처음 보는군.
다들 실수를 숨기고 싶어 하는데, 이 사람들은 실수한 걸 마치 자랑하듯이 게시판에 올리잖아? 그것도 전사 게시판에. (미친 사람들인가?)
장애 공유 글에는 항상 좋아요가 많이 달렸습니다.
쪽팔림 같은 건 저기 던져버리고 자신의 얼간이 짓을 솔직하게 쓰면 쓸수록 좋아요가 더 많이 달렸습니다.
원인과 후속 조치, 여전히 가시지 않는 의문점들에 대해 댓글로 논의하기도 했습니다만…
장애를 낸 사람을 탓하는 경우는 한 번도 보지 못했습니다.
이건 불문율이었습니다. 이 불문율을 깨트리면 누구도 더 이상 솔직하게 공유하지 않을 테니까.
자신이 발생시킨 장애를 전 직원들에게 공유한다는 것이 절대 쉬운 일이 아닙니다.
직접 해봐야 그 당혹스러움과 부끄러움을 알 수 있습니다.
처음 겪으면 그냥 도망쳐버리고 싶다는 생각이 들 정도로 아찔합니다만…
몇 번 하다 보면 이 짓도 편안해집니다.
아 오늘도 장애 공유 써야 되네, 젠장. 뭐 일하다 보면 장애 낼 수도 있는 거지.
열심히 코딩하고 배포하다 보니 장애를 많이 내는 것일 뿐, 내가 진짜 얼간이여서 그런 게 아니라고.
(그래도 다음엔 실수하지 말아야겠다)
카카오에서보다 더 놀랐던 기억도 납니다.
2017년의 GitLab 장애.
rm -rf
로 프로덕션 데이터베이스 전체를 날려먹었던가?
엄청난 장애를 어린 엔지니어 혼자 수습했습니다. 그것도 유튜브에 라이브 스트리밍을 하면서. (사람들이 댓글로 이걸 고쳐봐라 저걸 확인해 봐라… ㅋㅋㅋ)
와, 진짜 미친 사람들이 여기 있었구나. 저걸 회사의 다른 동료들이 아무도 뭐라 하지 않는 건가? 아니, 어쩌면 의도적으로 저렇게 공유하기로 한 건가?
문제를 공유하고 소통하는 것에 이 정도로 열려 있다면 GitLab의 다른 문화들도 충분히 멋질 거야. 라고 생각했던 것 같습니다.
함께 읽으면 좋은 글: