이상값을 지웠더니 분석이 틀렸다

이상값을 버릴 것인가, 분석할 것인가 데이터 분석 프로젝트를 진행하다 보면 예상보다 훨씬 자주 이상값(Outlier)을 만나게 된다. 평균 구매 금액이 5만 원인 쇼핑몰에서 갑자기 500만 원 결제가 발생하거나, 평소보다 수십 배 많은 트래픽이 특정 시간대에 집중되는 경우가 대표적이다. 많은 사람들이 이상값을 발견하면 제거부터 고민한다. 하지만 최근 데이터 분석과 머신러닝 분야에서는 다른 질문을 먼저 던진다. 이 데이터는 … Read more