이 영역을 누르면 첫 페이지로 이동
butter_shower 블로그의 첫 페이지로 이동

butter_shower

페이지 맨 위로 올라가기

butter_shower

켄달타우란? - 비모수적 상관계수에 대해서

  • 2021.05.24 19:14
  • 머신러닝 꿈나무/기본 개념
글 작성자: _rian

 

켄달타우란?

  • 순위 상관계수의 한 종류입니다.
  • 두 변수들 간의 순위를 비교하여 연관성을 계산합니다.

 

c.f > 상관계수 vs. 결정 계수
- 상관 계수 : 두 변수 간에 관계가 있는지만 확인
- 결정 계수 : 두 변수 간의 인과관계를 파악. 즉, 한 변수가 다른 변수에 영향을 미치는 지 확인

따라서 원인과 결과를 판단하기 위해서는 결정 계수를 사용하는 회귀 분석을 수행해야 합니다.

 

상관 계수의 해석

img

상관계수는 1에 가까울수록 양의 상관관계가 강하고 -1에 가까울수록 음의 상관 관계, 그리고 0에 가까울수록 상관관계가 없습니다. 

상관계수는 이상치의 유무에 따라 값의 영향이 크니 이상치 처리가 중요합니다.

 

모수적 방법과 비모수적 방법

  • 모수적 방법 (Parametic method) : 모수를 특정 분포로 가정하여 접근하는 방법
  • 비모수적 방법(Non-parametic method) : 모집단의 특정 분포를 가정하지 않고 접근하는 방법. 비모수적 방법은 정규성 검정에서 정규분포를 따르지 않거나 표본의 개수가 10개 미만일 때 사용

여기서 특정 분포를 가정하는 경우에서 특정 분포는 대표적으로 정규분포가 있습니다.. 데이터의 크기가 클수록 평균에 몰려있다는 정규분포에 대립되는 상황이 있을 수 있는데, 그 경우에는 비모수적 상관계수로 풀면 됩니다.

 

상관 계수 방법

여기서는 비모수적 상관계수를 다루는 방법만 다루겠습니다.

비모수적 상관 계수

(1) 스피어만 상관 계수

스피어만 상관 계수는 값에 순위를 매겨 그 순위에 대해 상관계수를 구하는 것입니다. 이런 특성 때문에 연속형 변수가 아닌 순 서형인 경우에도 상관계수를 구할 수 있습니다.

예를 들어, 수학 점수와 영어 점수의 상관계수는 피어슨 상관계수로 계산할 수 있고, 수학 과목의 석차와 영어 과목의 석차는 스피어만 상관 계수로 계산할 수 있습니다.

$$ p=\frac{6\sum d_i^2}{n(n^2-1)} $$

  • $d_i$ = $x_i$의 순위 - $y_i$의 순위

스피어만은 데이터 내 편차와 에러에 민감하며 일반적으로 켄달 상관계수보다 높은 값을 가집니다.

 

(2) 켄달 타우

켄달 타우는 두 변수들 간의 순위를 비교하여 연관성을 계산합니다.

$$ p = \frac{C-D}{C+D} $$

  • $C$ : concordant pair의 수
  • $D$ : concordant pari가 아닌 수

켄달 타우를 이해하기 위해서는 concordant pair에 대해서 먼저 이해를 해야합니다.

각 변수의 비교 대상의 상하관계가 같으면 concordant pair라고 말합니다.

예를 들어 사람들 키와 몸무게에 대한 상관계수를 알고 싶다고 해봅시다.
1번 케이스의 경우 A가 키가 크고 A가 몸무게도 더 나간다. 이런 경우 concordant pair입니다.
2번째 케이스의 경우 A가 키가 크지만 B의 몸무게가 더 나간다고 할 때 이는 concordant pair가 아닙니다.

켄달 타우는 샘플 사이즈가 작거나 데이터의 동률이 많을 때 유용합니다.

 

Reference..

- https://ekdud7667.tistory.com/entry/%EB%B9%84%EC%84%A0%ED%98%95-%EC%83%81%EA%B4%80%EA%B4%80%EA%B3%84-%EC%8A%A4%ED%94%BC%EC%96%B4%EB%A7%8C-%EC%83%81%EA%B4%80%EA%B3%84%EC%88%98-%EC%BC%84%EB%8B%AC%ED%83%80%EC%9A%B0

'머신러닝 꿈나무 > 기본 개념' 카테고리의 다른 글

토큰화(tokenize)란?  (0) 2022.02.17
[pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란?  (0) 2021.11.17
[빅데이터기초] 스파크란?  (0) 2021.11.13
주성분 분석(PCA)이란?  (0) 2021.03.03
맥북에서 딥러닝 개발환경 구축하기 - 아나콘다, oh-my-zsh, iterm2, jupyter lab 테마 설정하기  (0) 2021.01.13

댓글

이 글 공유하기

  • 구독하기

    구독하기

  • 카카오톡

    카카오톡

  • 라인

    라인

  • 트위터

    트위터

  • Facebook

    Facebook

  • 카카오스토리

    카카오스토리

  • 밴드

    밴드

  • 네이버 블로그

    네이버 블로그

  • Pocket

    Pocket

  • Evernote

    Evernote

다른 글

  • [pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란?

    [pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란?

    2021.11.17
  • [빅데이터기초] 스파크란?

    [빅데이터기초] 스파크란?

    2021.11.13
  • 주성분 분석(PCA)이란?

    주성분 분석(PCA)이란?

    2021.03.03
  • 맥북에서 딥러닝 개발환경 구축하기 - 아나콘다, oh-my-zsh, iterm2, jupyter lab 테마 설정하기

    맥북에서 딥러닝 개발환경 구축하기 - 아나콘다, oh-my-zsh, iterm2, jupyter lab 테마 설정하기

    2021.01.13
다른 글 더 둘러보기

정보

butter_shower 블로그의 첫 페이지로 이동

butter_shower

  • butter_shower의 첫 페이지로 이동

검색

메뉴

  • All Categories
  • About Me
  • Guest Book

카테고리

  • 전체보기 (223)
    • 💫 주인장 이야기 (17)
    • 🌱 와글와글뻘글 (27)
    • IT Trends (11)
    • 주인장 일상 (0)
    • 📒 내 마음대로 독서 서평 (12)
    • 머신러닝 꿈나무 (30)
      • 기본 개념 (6)
      • Hands-on! (5)
      • Paper Review (5)
      • 캐린이의 Kaggle (1)
    • 알고리즘 Algorithm (33)
      • PS (8)
    • Computer Engineering (75)
      • Python (8)
      • Cloud Computing (9)
      • C (9)
      • C++ (0)
      • Java (6)
      • Django 장고 (4)
      • 임베디드 시스템 (10)
      • 병렬 처리(Parallel Processing) (9)
      • 데이터 통신 Data communication (4)
      • 유닉스 시스템 (Unix System) (3)
      • GitHub (1)
      • 마이크로 프로세서 (micro processor) (1)
      • 데이터 마이닝 (1)
    • Error Note 🚨 (3)
    • 영어 공부 (6)
      • Live Academy (6)
    • HOBBY (2)
      • Film Log (2)

최근 글

정보

_rian의 butter_shower

butter_shower

_rian

나의 외부 링크

  • Github
  • Facebook
  • Instagram
  • LinkedIn
  • Twitter

블로그 구독하기

  • 구독하기
  • RSS 피드

방문자

  • 전체 방문자
  • 오늘
  • 어제

티스토리

  • 티스토리 홈
  • 이 블로그 관리하기
  • 글쓰기
Powered by Tistory / AXZ. © _rian. Designed by Fraccino.

티스토리툴바