목록Data Science (9)
Studying data

이상치(Outliers) 이상치(Outliers)란 데이터의 전체적인 패턴에서 동떨어져 있는 관측값 즉, 변수 분포에서 비정상적으로 벗어난 편차가 큰 값을 말한다. 이상치는 평균에 영향을 미칠 뿐만 아니라 분산(표준편차)이 커져서 불안정한 자료가 되고, 데이터의 통계값과 분포를 왜곡할 수 있다. 이처럼 이상치는 매우 중요한 요소이기 때문에 우리는 항상 데이터 전처리를 할 때 이상치들을 어떻게 처리해야 할지 고민해야 한다(분석을 위해 이상치를 포함시켜야 할지 혹은 제거해야 할지 등). 더욱이 예측 모델을 만드는 경우, 훈련 데이터셋에서 이상치를 미리 제거하면 예측 성능을 올릴 수 있기 때문에 이상치를 잘 다루는 것은 필수라고 볼 수 있다. 이상치의 종류 데이터 생성 시 실수로 생겨난 이상치(non-natu..
Data Science
2023. 4. 6. 21:43