-
[통계] 상관계수 총정리! 피어슨과 스피어만 상관계수 차이 비교머신러닝 배우기 2023. 11. 27. 15:25
상관계수란, 두 변수 간의 관계의 강도와 방향을 측정하는 통계적인 지표입니다. 일반적으로 데이터의 특성에 따라 피어슨 상관계수 또는 스피어만 순위 상관계수 중 선택합니다. 오늘은 상관계수와 자주 사용하는 피어슨/스피어만 상관계수에 대해서 확실히 짚고 넘어가보도록 하겠습니다!
1. 상관계수 정의
: 두 변수 간의 관계의 강도와 방향을 측정하는 통계적인 지표
2. 상관계수 분석 시 주의할 점
: 두 변수 간의 선형적인 관계를 측정하기 때문에 다른 형태의 관계를 감지하지 못할 수 있다.
: 인과관계를 나타내지 않으며, 두 변수 간의 관계가 우연에 의한 것일 수도 있다. 따라서 상관계수를 해석할 때 주의가 필요하다.
3. 상관계수 종류
: 상관계수에는 여러 종류가 있으며, 데이터의 특성과 분석 목적에 따라 적절한 상관계수를 선택해야 한다.
1. 피어슨 상관계수 (Pearson Correlation Coefficient) : 가장 흔하게 사용되는 상관계수 중 하나도, 두 변수 간의 선형 관계를 측정한다. -1부터 1까지의 값을 가지며, 1에 가까우면 양의 선형 관계, -1에 가까우면 음의 선형 관계를 갖는다.
2. 스피어만 순위 상관계수 (Spearman Rank Correlation Coefficient) : 변수 간의 순위 관계를 기반으로 하는 비모수적인 상관계수이다. 데이터의 순위를 사용하므로 비선형이거나 비정규 분포를 가질 때에도 적용 가능하며, 상대적으로 이상치에 대해 민감하지 않다.
3. 켄달의 τ (Kendall's Tau) : 두 변수 간의 순위 관계를 측정한다. 스피어만 순위 상관계수와 유사하지만 계산 방법이 다르며, 이상치에 대한 영향을 줄이는 특성이 있다.
4. 점-이계 상관계수 (Point-Biserial Correlation Coefficient) : 이진 변수와 연속형 변수 간의 상관계수를 측정. 일반적으로 하나는 이진 변수이고, 다른 하나는 연속형 변수일 때 사용된다.
5. 범주형 변수를 위한 상관계수 : 크래머의 V, 피어슨의 카이제곱 상관계수 등 범주형 변수 간의 상관성을 측정하기 위해 여러 종류의 상관계수가 개발되었다.
4. 피어슨/스피어만 상관계수 비교
공통점 : 두 변수 간의 상관성을 측정하는 데 사용한다.
차이점 : 계산 방법과 적용 조건에 차이가 있다.
차이점1) 적용 범위
- 피어슨 : 두 변수가 선형적으로 관련되어 있을 때 사용. 이상치에 민감하며, 정규 분포를 따를 때 가장 효과적이다.
예) 주식 가격과 이에 영향을 미치는 요인 간의 상관관계, 소비자 지출과 소득 간의 상관관계, 두 개의 생물학적 변수 간의 상관관계
- 스피어만 : 두 변수 간의 관계가 비선형적이거나 변수가 순위로 표현될 때 사용. 데이터가 정규 분포를 따를 필요가 없어 피어슨 상관계수보다 덜 민감하다.
예) 설문 조사 결과에서 변수 간의 순위 상관관계를 분석하여 트렌드를 파악, 심리학 실험 결과를 통해 얻은 순위 데이터를 분석하여 특정 요인과 반응 간의 관계를 조사
차이점2) 계산 방법
- 피어슨 : 공분산을 각 변수의 표준편차로 나누어 계산한다. 값의 범위는 -1에서 1까지이며, 1에 가까우면 양의 선형 관계, -1에 가까우면 음의 선형 관계를 나타냅니다.
- 스피어만 : 데이터를 순위로 변환하고 순위 간의 차이를 계산힌다. 값의 범위는 -1에서 1까지이다. -1이나 1에 가까울수록 두 변수 간의 순위 관계가 강하고, 0에 가까울수록 순위 관계가 약하거나 거의 없다는 것을 나타낸다.
참조 : 이 글은 ChatGPT를 활용해 검토 후에 작성하였습니다. 혹시 지피티가 본인의 글을 이용한 거라면, 참조에 넣도록 하겠습니다!
'머신러닝 배우기' 카테고리의 다른 글
[머신러닝] Cross-validation으로 과적합 피하기 (K-Fold CV) (1) 2023.12.05 [머신러닝] 쉽게 설명하는 머신러닝 (1) 2023.12.04 데이터 분석하는데 선형대수를 왜 공부해야해? 에 대한 답변 (1) 2023.12.04 [머신러닝] feature importance 의 특징과 장단점 (1) 2023.12.04 [Do it 자연어 처리] 1일차 자연어 처리, 트랜스퍼 러닝의 개념 (0) 2023.09.30