켄달타우란? - 비모수적 상관계수에 대해서
켄달타우란?
- 순위 상관계수의 한 종류입니다.
- 두 변수들 간의 순위를 비교하여 연관성을 계산합니다.
c.f > 상관계수 vs. 결정 계수
- 상관 계수 : 두 변수 간에 관계가 있는지만 확인
- 결정 계수 : 두 변수 간의 인과관계를 파악. 즉, 한 변수가 다른 변수에 영향을 미치는 지 확인
따라서 원인과 결과를 판단하기 위해서는 결정 계수를 사용하는 회귀 분석을 수행해야 합니다.
상관 계수의 해석
상관계수는 1에 가까울수록 양의 상관관계가 강하고 -1에 가까울수록 음의 상관 관계, 그리고 0에 가까울수록 상관관계가 없습니다.
상관계수는 이상치의 유무에 따라 값의 영향이 크니 이상치 처리가 중요합니다.
모수적 방법과 비모수적 방법
- 모수적 방법 (Parametic method) : 모수를 특정 분포로 가정하여 접근하는 방법
- 비모수적 방법(Non-parametic method) : 모집단의 특정 분포를 가정하지 않고 접근하는 방법. 비모수적 방법은 정규성 검정에서 정규분포를 따르지 않거나 표본의 개수가 10개 미만일 때 사용
여기서 특정 분포를 가정하는 경우에서 특정 분포는 대표적으로 정규분포가 있습니다.. 데이터의 크기가 클수록 평균에 몰려있다는 정규분포에 대립되는 상황이 있을 수 있는데, 그 경우에는 비모수적 상관계수로 풀면 됩니다.
상관 계수 방법
여기서는 비모수적 상관계수를 다루는 방법만 다루겠습니다.
비모수적 상관 계수
(1) 스피어만 상관 계수
스피어만 상관 계수는 값에 순위를 매겨 그 순위에 대해 상관계수를 구하는 것입니다. 이런 특성 때문에 연속형 변수가 아닌 순 서형인 경우에도 상관계수를 구할 수 있습니다.
예를 들어, 수학 점수와 영어 점수의 상관계수는 피어슨 상관계수로 계산할 수 있고, 수학 과목의 석차와 영어 과목의 석차는 스피어만 상관 계수로 계산할 수 있습니다.
$$ p=\frac{6\sum d_i^2}{n(n^2-1)} $$
- $d_i$ = $x_i$의 순위 - $y_i$의 순위
스피어만은 데이터 내 편차와 에러에 민감하며 일반적으로 켄달 상관계수보다 높은 값을 가집니다.
(2) 켄달 타우
켄달 타우는 두 변수들 간의 순위를 비교하여 연관성을 계산합니다.
$$ p = \frac{C-D}{C+D} $$
- $C$ : concordant pair의 수
- $D$ : concordant pari가 아닌 수
켄달 타우를 이해하기 위해서는 concordant pair에 대해서 먼저 이해를 해야합니다.
각 변수의 비교 대상의 상하관계가 같으면 concordant pair라고 말합니다.
예를 들어 사람들 키와 몸무게에 대한 상관계수를 알고 싶다고 해봅시다.
1번 케이스의 경우 A가 키가 크고 A가 몸무게도 더 나간다. 이런 경우 concordant pair입니다.
2번째 케이스의 경우 A가 키가 크지만 B의 몸무게가 더 나간다고 할 때 이는 concordant pair가 아닙니다.
켄달 타우는 샘플 사이즈가 작거나 데이터의 동률이 많을 때 유용합니다.
Reference..
'머신러닝 꿈나무 > 기본 개념' 카테고리의 다른 글
토큰화(tokenize)란? (0) | 2022.02.17 |
---|---|
[pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란? (0) | 2021.11.17 |
[빅데이터기초] 스파크란? (0) | 2021.11.13 |
주성분 분석(PCA)이란? (0) | 2021.03.03 |
맥북에서 딥러닝 개발환경 구축하기 - 아나콘다, oh-my-zsh, iterm2, jupyter lab 테마 설정하기 (0) | 2021.01.13 |
댓글
이 글 공유하기
다른 글
-
[pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란?
[pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란?
2021.11.17 -
[빅데이터기초] 스파크란?
[빅데이터기초] 스파크란?
2021.11.13 -
주성분 분석(PCA)이란?
주성분 분석(PCA)이란?
2021.03.03 -
맥북에서 딥러닝 개발환경 구축하기 - 아나콘다, oh-my-zsh, iterm2, jupyter lab 테마 설정하기
맥북에서 딥러닝 개발환경 구축하기 - 아나콘다, oh-my-zsh, iterm2, jupyter lab 테마 설정하기
2021.01.13