목록전체 글 (31)
Studying data
Univariate Outlier Detection - Distribution plot - Z-score - Boxplot - IQR (Tukey fences) - K-means clustering Multivariate Outlier Detection - Isolation Forest - Local Outlier Factor - Minimum Covariance Determinant (MCD) / Mahalanobis distance - DBSCAN https://towardsdatascience.com/univariate-outlier-detection-in-python-40b621295bc5 Univariate Outlier Detection in Python Five methods for bein..
Local Outlier Factor (LOF) Local Outlier Factor(LOF)는 밀도 측정 방식의 비지도 알고리즘으로 어느 정도의 고차원의 데이터셋에서 사용할 수 있으며, 다변량 이상치 탐색법이다. LOF 알고리즘은 관측치가 이웃들(k-nearest neighbors)에 비해 주변과의 밀도가 낮을 때 이상치로 판별한다. 이상치 판별을 위해 각 데이터의 이상 정도(abnormality)를 나타내는 LOF score를 계산하는데, LOF score는 데이터 포인트(p)의 이웃들이 해당 포인트(p)에 비해 주변과 얼마나 밀도있는 지를 나타낸다. 정상치라면 이웃들과 비슷한 local density를, 이상치라면 이웃들보다 작은 local density를 가질 것이다. 관측치 p의 LOF = (k..
Mahalanobis Distance 마할라노비스 거리(Mahalanobis distance)는 다변량 공간에서 두 점 사이의 거리를 의미한다. 단, 유클리디안 거리와의 차이점은 두 점 사이의 분포, 즉 두 변수간의 상관관계를 고려해서 측정한 거리라는 것이다. 두 벡터 \(\vec{x}\)와 \(\vec{y}\) 사이의 유클리디안 거리는 다음과 같이 벡터의 차와 내적을 이용해 계산할 수 있다. $$d_E = \sqrt{(\vec{x}-\vec{y})(\vec{x}-\vec{y})^T}$$ 하지만 두 점 사이의 거리는 두 점 사이에 위치한 데이터들의 분포에 의해 상대적인 의미를 가지게 될 수 있다. 예를 들어 위 그림(a)의 \(\vec{x}\)와 \(\vec{y}\)는 중앙의 파란색 데이터들에서 멀리 떨..
• Isolation Forest의 문제점 • Extended Isolation Forest (EIF) - EIF의 branch cuts - EIF의 Extension Levels - EIF 알고리즘 - EIF의 anomaly score map Isolation Forest의 문제점 위 그림은 2차원 정규 분포에서 샘플링된 (a)데이터와 해당 데이터에 대해 Isolation Forest로 생성된 (b)anomaly score map이다. 논문에 따르면 anomaly score map에서 색이 어두울수록 높은 anomaly score, 즉 더 anomalous함을 뜻한다. 왼쪽 그림을 보면 직감적으로 각 샘플의 anomaly score가 중앙의 점부터 바깥쪽으로 갈수록 방사상으로 높아져 anomaly sc..
Isolation Forest • 결정 트리에서의 이상치 분리 • Anomaly score • IsolationForest 알고리즘 - 하이퍼파라미터 - Attributes - Methods Isolation Forest 결정 트리(decision tree) 계열의 비지도 학습 알고리즘으로 고차원(high-dimensional) 데이터셋에서 이상치를 탐지할 때 효과적인 방법이다. (통계값을 사용한 이상치 탐색 방법인 IQR과 Z-score 방식은 고차원 데이터셋에서는 잘 사용하지 않는다고 한다.) IQR이나 Z-score 방식은 먼저 정상 데이터의 영역을 찾아낸 후 이외의 영역이 이상치인지를 판별하는 반면, Isoation Forest 방식은 전체 데이터에서 이상치를 분리해 찾아낸다. 이 알고리즘은 이상..
통계(기초통계량)값을 이용한 이상치 탐색 Skewed Distribution에서의 이상치 탐색 • 1.5 IQR 기준 ±1.5*IQR 값을 기준으로 판별. \((Q1 - 1.5*IQR) < X < (Q3 + 1.5*IQR)\) 범위 밖에 있는 값들을 이상치로 판별 • 3 IQR 기준 ±3*IQR 값을 기준으로 판별. \((Q1 - 3*IQR) < X < (Q3 + 3*IQR)\) 범위 밖에 있는 값들을 이상치로 판별 Normal Distribution(정규분포)에서의 이상치 탐색 • 정규 분포에서 97.5% 이상, 2.5% 이하에 포함되는 값을 이상치로 판별 • ESD(Extreme Studentized Deviation) or Z-score 데이터가 정규분포를 이루는 경우 표준편차(\(\sigma\))..
https://studying-haeung.tistory.com/10 [머신러닝] 클러스터링 평가지표 - 실루엣 계수 (1) 실루엣 계수(Silhouette Coefficient) : 각 데이터 포인트와 주위 데이터 포인트들과의 거리 계산을 통해 값을 구하며, 군집 안에 있는 데이터들은 잘 모여있는지, 군집끼리는 서로 잘 구분되는지 클러 studying-haeung.tistory.com https://studying-haeung.tistory.com/13 [머신러닝] 클러스터링 평가지표 - 실루엣 계수(2) 이전 포스팅에서 실루엣 계수를 구하는 방법과 평가지표로써의 장단점을 알아보았다. 2021.06.15 - [머신러닝] - [머신러닝] 클러스터링 평가지표 - 실루엣 계수 (1) [머신러닝] 클러스터링 ..
앞선 "1. 통계값을 이용한 Outlier Detection"에 이어 머신러닝 알고리즘을 통한 이상치 탐색 방법을 소개하는 포스팅의 시작이다. 대부분의 머신러닝 데이터셋은 크기가 크며, 특성의 수가 많고(고차원) 또 특성 간에 어떤 복잡한 관계가 있는지 아직 알 수 없기 때문에 표준편차나 사분위수 같은 간단한 통계값을 사용해 이상치를 탐색하는 것은 한계가 있다고 한다. 따라서 자동적으로 이상치를 탐색해주는 methods, 알고리즘을 사용한다. DBSCAN (Density-Based Spatial Clustering of Applications with Noise) IQR, Z-score는 모두 일변량(Univariate) 이상치 감지를 위한 방법들인 반면, DBSCAN은 다변량(Multivariate) ..