이상값을 지웠더니 분석이 틀렸다

이상값

이상값을 버릴 것인가, 분석할 것인가

데이터 분석 프로젝트를 진행하다 보면 예상보다 훨씬 자주 이상값(Outlier)을 만나게 된다. 평균 구매 금액이 5만 원인 쇼핑몰에서 갑자기 500만 원 결제가 발생하거나, 평소보다 수십 배 많은 트래픽이 특정 시간대에 집중되는 경우가 대표적이다.

많은 사람들이 이상값을 발견하면 제거부터 고민한다. 하지만 최근 데이터 분석과 머신러닝 분야에서는 다른 질문을 먼저 던진다. 이 데이터는 오류인가, 아니면 중요한 신호인가?

실제로 가장 큰 비즈니스 기회와 가장 위험한 보안 위협은 대부분 평균적인 데이터가 아닌 예외적인 데이터에서 발견된다.

이상값은 생각보다 자주 발견된다

이상값은 특별한 상황에서만 나타나는 데이터가 아니다. 거의 모든 데이터셋에는 크고 작은 이상값이 존재한다.

사용자 입력 실수, 센서 오작동, API 수집 오류, 이벤트성 마케팅, 특정 고객 행동 등 다양한 원인으로 인해 평균 범위를 벗어난 데이터가 생성된다.

문제는 모든 이상값이 같은 의미를 가지지 않는다는 점이다.

이상값 유형 대표 사례
데이터 오류 입력 실수, 센서 오류
시스템 문제 API 장애, 로그 누락
비즈니스 신호 VIP 고객 구매
이상 징후 금융 사기, 보안 공격
희귀 이벤트 예상 밖 사용자 행동

따라서 이상값을 발견했다면 제거보다 먼저 원인을 확인해야 한다.

첫 번째 기준, 데이터 오류인지 먼저 확인해야 한다

실무에서 가장 먼저 확인하는 것은 데이터 자체의 신뢰성이다.

많은 이상값은 실제 현상이 아니라 데이터 수집 과정에서 발생한 문제인 경우가 많다.

예를 들어 센서가 고장 나면서 실제보다 100배 높은 수치를 기록하거나 API 연동 오류로 동일 데이터가 반복 저장될 수 있다.

사용자 입력 실수 역시 흔한 원인이다. 금액 입력 오류나 날짜 형식 오류는 거의 모든 서비스에서 발생한다.

만약 데이터 생성 과정 자체에 문제가 있었다면 해당 값은 분석 대상이 아니라 정제 대상이 된다.

두 번째 기준, 비즈니스적으로 의미가 있는가

오류가 아니라면 다음 단계는 비즈니스 관점에서 의미를 확인하는 것이다.

통계적으로는 이상값이지만 사업적으로는 가장 중요한 데이터인 경우가 많다.

대표적인 사례가 VIP 고객이다. 전체 고객 평균 구매 금액은 낮더라도 일부 고객은 일반 고객보다 수십 배 많은 금액을 사용한다.

마케팅에서도 비슷한 현상이 나타난다. 특정 광고 캠페인의 전환율이 평소보다 압도적으로 높다면 단순한 이상값이 아니라 성공 원인을 분석해야 할 대상이 된다.

실무에서는 다음 항목을 함께 검토한다.

  • 실제 고객 행동인가
  • 반복적으로 발생하는 패턴인가
  • 특정 이벤트와 연관성이 있는가
  • 추가 매출 또는 위험 신호와 연결되는가

세 번째 기준, 분석 목적이 무엇인가

동일한 이상값이라도 분석 목적에 따라 처리 방식은 달라진다.

경영 보고서를 작성하는 경우 일부 극단값이 전체 평균을 왜곡할 수 있다. 이때는 제거하거나 별도로 표시하는 것이 적절할 수 있다.

반면 머신러닝 모델 개발에서는 오히려 이상값이 핵심 데이터가 되는 경우가 많다.

예를 들어 사기 거래 탐지 모델은 정상 거래보다 이상 거래 패턴을 학습해야 한다.

설비 고장 예측 시스템 역시 정상 상태보다 비정상 상태 데이터가 더 높은 가치를 가진다.

결국 이상값 처리 방법은 데이터보다 목적이 먼저 결정한다.

금융과 보안 분야는 이상값을 버리지 않는다

금융 산업은 이상값의 중요성을 가장 잘 보여주는 분야다.

갑작스러운 해외 결제, 평소와 다른 위치에서 발생한 거래, 비정상적으로 큰 금액의 송금은 모두 이상값으로 분류될 수 있다.

보안 분야도 마찬가지다.

특정 서버에 갑자기 몰리는 트래픽, 수백 번 반복되는 로그인 시도, 예상하지 못한 접근 패턴은 사이버 공격의 신호일 수 있다.

이러한 데이터를 단순히 제거한다면 가장 중요한 위험 신호를 놓치게 된다.

그래서 금융과 보안 시스템은 이상값 제거보다 이상값 탐지와 분류에 더 많은 자원을 투자한다.

이상값 가치

AI 시대에는 이상값의 가치가 더 커지고 있다

생성형 AI와 머신러닝 기술이 발전하면서 이상값의 중요성은 더욱 커지고 있다.

과거에는 평균적인 패턴을 잘 학습하는 것이 중요했다면 최근에는 예외 상황을 얼마나 이해하는지가 경쟁력이 되고 있다.

자율주행 차량은 평범한 도로보다 돌발 상황을 학습해야 하고, 추천 시스템은 일반적인 행동보다 특이한 구매 패턴을 이해해야 한다.

AI 모델 역시 실제 서비스 환경에서는 예상하지 못한 입력을 끊임없이 만나게 된다.

결국 이상값은 모델을 혼란스럽게 만드는 데이터가 아니라 모델을 더 강하게 만드는 데이터가 될 수 있다.

실무에서는 제거보다 분류가 먼저다

최근 데이터 품질 관리 방식은 과거와 크게 달라졌다.

예전에는 이상값을 발견하면 제거하는 경우가 많았지만 현재는 먼저 분류하고 의미를 파악하는 방향으로 변화하고 있다.

실무에서 자주 사용하는 이상값 처리 순서는 다음과 같다.

  1. 데이터 오류 여부 확인
  2. 비즈니스 의미 분석
  3. 분석 목적 검토
  4. 제거 또는 유지 결정

중요한 것은 이상값을 없애는 것이 아니라 왜 발생했는지 이해하는 것이다.

이상값의 중요성은 특히 실시간 분석 환경에서 더욱 커진다. 이벤트가 지속적으로 발생하는 스트림 데이터 환경에서는 이상값이 단순한 노이즈가 아니라 중요한 비즈니스 신호나 위험 징후가 될 수 있기 때문이다. 관련 내용은 스트림 데이터 편에서 자세히 확인할 수 있다.