데이터 흐름이 끊기는 3가지 구간

데이터 엔지니어라면 한 번쯤 이런 상황을 겪어봤을 것이다. 파이프라인은 돌아가고 있다. 로그도 정상이다. 그런데 분석가가 쓰는 대시보드의 숫자가 이상하다. 원인을 찾기 위해 소스부터 역추적한다. 변환 로직을 뜯어보고, 조인 조건을 다시 확인하고, 스케줄러 로그를 열어본다. 두 시간 뒤에야 원인을 찾는다. 업스트림 테이블 스키마가 조용히 바뀌어 있었다. 아무도 공지하지 않았다. 이건 특정 팀의 문제가 아니다. 데이터가 여러 … Read more