Recent Posts
Recent Comments
Link
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

Studying data

카이제곱검정(Chi-Square test) 본문

통계

카이제곱검정(Chi-Square test)

halloweenie 2022. 6. 29. 14:18

카이제곱검정(Chi-Square test)

카이제곱검정은 카이제곱 분포에 기초한 가설 검정 방법의 하나로 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검정하기 위해 사용된다. 자료가 빈도로 주어졌을 때, 특히 명목척도의 자료 분석에 이용된다. 기본 개념은 데이터에서의 관측값을 귀무가설이 참인지 확인할 기댓값과 비교하는 것이다. 실제 분포와 예상 분포가 일치한다면 유의미한 결과가 나타나지 않은 것이고, 카이제곱 분석 결과 유의미한 차이가 있다는 것은 데이터의 실제 분포가 기대 빈도에 의해 예상되는 분포와 다른 경우를 뜻한다.

 

카이제곱분포(Chi-Square Distributions)

자유도(df)에 따라 다양한 카이제곱분포(only positive values)

대부분의 통계적 연구를 할 때 지정하게 되는 자유도(Degrees of Freedom)는 k-1을 나타낸다. 즉, 얼마나 많은 카테고리에 대한 분포를 검증하는 것이냐를 의미하는데 k-1이 너무 작으면 샘플도 작고 카테고리도 작아서 분포를 엄밀하게 볼 수 없어진다. 자유도가 k-1이 된 이유에 대해 이야기해보자면, 만약 10개의 숫자가 있고 평균이 5로 정해져 있다면 9개까지는 어떤 수가 되어도 상관이 없다. 마지막 하나의 숫자만 조정해서 전체 10개 숫자의 평균을 5로 맞출 수 있기 때문이다. 따라서 자유도는 10-1=9가 된다. 이런 통계적 검증 과정에서 variation이 많을 수 있는데 이것의 한계점에 이를 수 있는 샘플 사이즈의 영역이 k-1에 해당된다.

기대빈도(Expected Counts)

멘델의 완두콩 실험에서 콩 재배를 했을 때 실제 나올 수 있는 콩 종류의 비율이 9:3:3:1이라면, 첫번째 타입의 콩은 전체 콩이 16개일 때 9개, 32개일 때 18개가 나올 것이다. 여기서 9개, 18개를 기대빈도라고 한다. 그리고 이 기대빈도를 실제 검증할 수 있는 방법이 바로 카이제곱검정이다.

카이제곱 통계량(χ2)

카이제곱 통계량은 피어슨 잔차(Pearson residual)들의 제곱합이다. 피어슨 잔차 R은 다음과 같은 공식으로 구한다.

R=()

R은 실제 횟수(관측값)와 기대한 횟수 사이의 차이를 나타낸다. 카이제곱 통계량은 다음과 같이 정의된다.

X2=ki=1R2=ki=1((Oi)(Ei))2(Ei)

 

관측값과 기댓값 차이의 총합은 결국 0이 되므로 R에 제곱을 해주는 것

카이제곱검정의 종류

카이제곱검정은 일원 카이제곱검정이원 카이제곱검정으로 나뉘는데

일원은 한 개의 변인을 대상으로 관측된 빈도와 기대 빈도가 일치하는지 검정하는 카이제곱 적합도 검정이 있고, 이원은 교차 분할표를 이용하는 검정으로 분석 대상 집단 수에 따라 카이제곱 독립성 검정카이제곱 동질성 검정으로 나뉜다.

 

카이제곱검정

일원 카이제곱검정


카이제곱 적합도 검정 (Chi-Square One-Sample Goodness-of-Fit Test)
이원 카이제곱검정
카이제곱 독립성 검정 (Chi-Square Two-Sample Test for Independence)


카이제곱 동질성 검정 (Chi-Square Test of Homogeneity)

 

측정 변수가 한 개이면 카이제곱 적합도 검정, 측정 변수가 두 개이면 카이제곱 독립성 검정을 사용한다.

이 일반적인 두 가지 카이제곱검정에는 하나 이상의 범주에서 관측된 빈도가 기대빈도와 일치하는지 확인하는 단계가 포함된다.

 

 

  카이제곱 적합도 검정
(Goodness-of-Fit Test)
카이제곱 독립성 검정
(Chi-Square Test for Independenct)
변수의 개수 1 2
검정 목적 하나의 변수가 주어진 분포에서 나올 가능성이 있는지 여부 판별 두 변수가 서로 관련될 수 있는지 여부 판별
예제 캔디 봉지에 맛별로 동일한 개수의 캔디가 들어있는지 여부 판별 영화 관람객의 간식류 구매 결정이 감상하려는영화 장르와 관련이 있는지 여부 판별
예제의 가설 H0: 캔디의 맛 종류 비율이 동일하다
Ha: 캔디의 맛 종류 비율이 동일하지 않다
H0: 간식류 구매자 비율이 영화 장르와 무관하다
Ha: 간식류 구매자 비율이 영화 장르별로 다르다 / 관련이 있다
자유도 범주 개수 - 1

(예제의 자유도 = 캔디의 맛 종류 수 - 1)

{첫번째 변수의 범주 개수 - 1} X {두번째 변수의 범주 개수 - 1}

(예제의 자유도 = {영화 장르의 개수 - 1} X 1,
간식류 구매의 범주는 예/아니오 변수로 2 - 1 = 1이기 때문)

카이제곱검정의 가정

카이제곱검정은 카이제곱 분포라는 확률분포에 근거해서 표본 통계치의 유의성을 확률적으로 검정하는 방법이므로 다음 조건의 전제 하에 이루어진다.

 

1. 귀무가설, 대립가설의 종속변인은 범주형 자료여야 한다.

비율척도나 등간척도로 되어있다면 이것을 범주형 자료로 바꿔서 검정을 진행해야 한다. 예를 들어, 키를 측정한 자료가 있다면 160cm 이하, 160~180cm, 180cm 이상, 또는 작은 키, 중간 키, 큰 키 등으로 범주화해야 한다.

척도의 종류: https://blog.naver.com/sgjjojo/221270160250

 

2. 모든 기대빈도들은 1보다 크거나 같아야 한다.

 

3. 기대 빈도가 5이하인 셀이 전체의 20%가 넘지 않아야 한다.

이 조건을 충족하지 않는다면 다음과 같은 방법으로 셀의 빈도수를 높인다.

- 표본의 크기를 늘린다.

- 그룹화시킬 수 있는 항목을 더 그룹화하여 빈도수가 낮은 셀을 줄인다.

      ex) 10대, 20대, 30대, ..., 80대 ⇒ 청소년, 중년, 노년

 

여전히 빈도수가 낮은 셀이 존재한다면 카이제곱검정을 하지 못하고 "Fisher의 정확검정"을 사용해야 한다.

 

4. 빈도표에 있는 각 칸의 빈도는 다른 칸의 빈도와 독립적이어야 한다.

카이제곱검정 방법

1. 데이터를 수집하기 전에 귀무가설과 대립가설 정의

- H0: 관측값이 기대분포를 그대로 따를 것이다.

- Ha: 관측값이 기대분포를 그대로 따르지 않을 것이다.

 

2. K 범주의 각 범주에 대해 예상되는 빈도 계산

데이터를 입력하면 자동으로 계산이 되며, 시행자가 count를 지정하지 않는 이상 1:1:1...로 고르게 설정된다.

 

3. 카이제곱검정의 조건을 만족하는지 확인

 

4. 알파값(α, 유의수준) 결정

유의수준이란 제 1종 오류를 범할 확률, 즉 귀무가설이 참인데도 불구하고 기각할 확률이다. 보통 95%의 신뢰도를 기준으로 하여 유의수준을 0.05로 설정하며, 분석 결과가 0.05보다 작으면 제 1종 오류를 범할 확률이 5% 미만이라는 의미로 귀무가설을 잘못 기각할 가능성이 낮다고 보고 귀무가설을 기각한다.

 

💡

* 유의 수준(significance level): 보통 α로 표시한다. 95%의 신뢰도를 기준으로 하면 1-0.95인 0.05가 유의 수준 값이다.
* p-값(p-value, probability value) 또는 유의 확률(significance probability, asymptotic significance): 귀무 가설 H0를 기각할 수 있는 최소한의 유의 수준이다.
* 임계값(critical value, threshold value): 검정 통계량의 분포에서 유의 수준 α값에 해당하는 선 위의 값이다.

 

 

5. 카이제곱검정 시행

 

카이제곱검정 결과 

자유도 k의 카이제곱 확률변수 χ2 c 부분을 나누는 값을  χ2c 로 표현하며, 임계값(critical value, threshold value)이라고 부른다. 임계값은 검정 통계량의 분포에서 유의 수준 α값에 해당하는 선 위의 값이다.

카이제곱 값이 임계값보다 크면 귀무가설을 기각하고, 신뢰구간 쪽으로 간다면 귀무가설을 채택한다. 다른 말로, 카이제곱 값보다 큰 부분의 면적은 p-value값인데 이 면적이 유의수준(ex. α=0.05)보다 작으면 귀무가설을 기각한다. (ex. p-value < 0.05)

 

예를 들어, 위 예시에는 α값이 0.10, 임계값이 2.706이고 카이제곱값이 1.231로 임계값보다 작으므로 귀무가설을 기각하지 않는다. p-value 또한 α값보다 크다.

 

이 경우, α값이 0.01, 임계값이 9.210이고 카이제곱값이 31.75로 임계값보다 크므로 귀무가설을 기각한다. p-value 또한 α값보다 작다.

 

 

 

다음 글에서는 카이제곱 독립성 검정에 대해 더 자세히 다룰 것이다.

 

 

 

 

Reference

https://stats.libretexts.org/Bookshelves/Introductory_Statistics/Book%3A_Introductory_Statistics_(Shafer_and_Zhang)/11%3A_Chi-Square_Tests_and_F-Tests 

 

 

 

Comments