핵심 요약
데브시스터즈가 입사 첫날 36시간 점검을 겪으며 CockroachDB와 Spark를 이용한 대규모 데이터 이주와 시스템 복구를 수행했고, 7TB 데이터, 11,200코어, 89,600GB 메모리의 클러스터로 11시 37분에 서비스 오픈에 이르렀습니다.
주요 경험
- 초기 이슈 원인 파악과 대응 방향을 팀과 즉시 공유했습니다.
- 7TB 규모의 데이터 전처리(SST→CSV) 및 데이터 이주를 밤샘으로 수행했습니다.
- 데이터 이주 후 내부 테스트와 Kafka/Elastic Stack 모니터링으로 안정성을 확인했습니다.
얻은 인사이트
- 실전 대응에서 팀 협업과 빠른 의사결정의 중요성을 체감했습니다.
- CockroachDB, Spark, Kafka 등의 조합이 대규모 복구에 유효함을 확인했습니다.
