책으로 공부하기

[김팀장 2부] 더 다양한 분석 방법론과 기술통계량

차근차근 디지털 2023. 3. 18. 11:27

- 원인과 결과 간 관계를 분석하는 방법에는 회귀와 분류가 있다. 결과가 수치형으로 나오는 것은 회귀로 풀고, 범주형은 분류로 풀어야 한다.

- 재구매는 "재구매한다"와 "재구매하지 않는다" 두 가지 경우밖에 없는데 그 결과를 딱 부러지게 알 수 없으니 재구매 확률로 보여주는 것이고 분류 방법론으로 풀어야 한다.

- 회귀 방법론에는 t-test, 분산 분석, 선형 회귀 등이 있다. (선형 회귀가 가장 많이 쓰임)

- 분류 방법론에는 로지스틱 회귀, 판별 분석, 서포트 벡터 머신, 의사결정나무, k-이웃 등이 있다. (골고루 다 쓰임)

- 선형 회귀 : 예측된 Y값이 0과 1 범위를 벗어날 수 있다.

- 로지스틱 회귀 : 예측된 Y값이 0과 1 범위 내에 있다. 

- 의사결정나무의 장점 1. 분석 결과가 곧 액션 플랜이 된다. 2. 영업사원의 특성에 따라 매출액을 예측하거나 영업사원을 분류해서 유형화할 수 있다.(종속변수의 유형에 따라 분류나무와 회귀나무가 있다.)

- 여러 상품을 비슷한 것끼리 묶으려면 두 지점 간의 거리를 구해야 한다.(by 유클리드 거리, 맨해튼 거리, 피어슨 거리, 마할라노비스 거리 등)

- 피어슨은 -1과 1사이의 값으로 나오고, 1에 가까울수록 거리가 가깝다.

- 유클리드 거리를 측정할 때는 변수마다 단위가 다를 수 있기 때문에 데이터를 표준화해야 한다. 결과값이 작을수록 거리가 가깝다.

- 지도 학습은 정답이 있는 데이터로 결과를 예측하거나 인과관계를 추론하는 것이고, 비지도 학습은 결과가 없는 데이터를 비슷한 특징끼리 묶어서 그룹화하여 결과를 예측하는 것이다.

- 통계학을 기반으로 데이터 분석을 하는 것을 통계 학습, 컴퓨팅을 기반으로 데이터 분석을 하는 것을 기계학습이라고 한다.

통계학습/기계학습 지도 학습 비지도 학습
방식 회귀 분류 그룹화 차원 축소
방법론 선형 회귀 등 로지스틱 회귀 등 k-평균 군집 분석, 덴드로그램  주성분 분석 등

 - k 값을 정하려면 일일히 분석 결과를 보며 적절한 k를 찾아야 한다. 방법1) CCC통계량이 높은 군집 수를 선택하면 된다. (CCC도표 활용). 방법2) 스크리 도표를 보고 갑자기 가파른 구간이 시작되는 요인의 값으로 정하면 된다. (스크리 도표를 볼 때는 설명변동량을 같이 보면 좋다. 가파른 구간 대신 누적으로 95% 이상을 설명하는 그룹으로 정해도 됨)

- 5개로 묶으라고 하면 k-평균 군집 분석을 사용하면 되구, 비슷한 매장끼리 묶으라고 하면 덴드로그램을 쓰면 된다.(절단선으로 잘라서 적절한 군집을 만들 수 있다.)

- 데이터가 많으면 천국이지만 차원이 높으면 지옥이다. 관측치가 많으면 데이터의 분포가 정규 분포에 가까워져서 별다른 데이터 가공 없이 바로 분석할 수 있어서 좋다. 하지만 센서가 많으면 차원의 저주다.

- 차원의 저주를 해결하려면 1)변수 선택, 2)수축, 3)차원 축소가 있다. 

- 변수가 많지 않을 때는 중요한 변수는 택하고, 덜 중요한 변수는 제거하는 "변수 선택"이 유용하다.

- 변수가 매우 많고, 어떤 것이 중요한지 모를 때는 여러 변수를 묶어서 새로운 변수로 만드는 "차원 축소"를 사용한다. 

- 그룹화는 행을 묶는 거고, 차원 축소는 열을 묶는다고 생각하면 된다. 

- 차원 축소를 하는 방법 중 주성분 분석이 있다. 묶이지 않는 성분들을 빼면 자연스레 변수의 개수가 줄 것이다. 그리고 가장 영향을 주는 변수를 찾으면 된다. 주성분 분석은 회귀나 분류 문제를 풀기 위한 선행과정으로 많이 사용된다.

- 기술통계량과 분포를 보고 데이터가 어떻게 생겼는지 확인하는 습관을 들여야 한다. box-plot 추천!

- 최댓값과 최솟값의 한계는 IQR에 1.5를 곱한 구간이다.

- 아웃라이어를 발견하였을 경우 이를 제거하는 것이 원칙이지만, 아웃라이어가 상당수 뭉쳐 있을 때는 중요 변수가 누락된 것은 아닌지 확인해야 한다.

- 표준 오차는 표본을 여러 번 뽑아을 때 표본 평균들의 표준편차여서 비즈니스에서는 일반적으로 표본 추출을 한 번만 하기 때문에 표준오차가 있을 수 없다. 

- 나이 평균이 56세이고, 표준 편차가 25세라고 할 때, 1시그마일 때 고객 연령이 31세부터 81세 안에 분포할 확률은 68.3%가 된다는 말이다. (쁠마 1시그마= 68.3%, 쁠마 2시그마= 95.4%, 쁠마 3시그마 99.7%)

- 왜도가 0이면 완전 대칭, 양수이면 오른쪽으로 꼬리가 길어짐. 음수이면 왼쪽으로 꼬리가 길어짐. 보통 쁠마2 사이이면 정규분포에 가깝다고 본다. (절댓값이 2를 초과하면 이를 바로 잡아야한다.)

- 첨도는 뾰족한 정도인데, 3일 때 완전 정규분포. 

- 일반적으로 분석에 사용하는 데이터의 갯수가 적기 때문에 왜도와 첨도를 봐야하지만, 데이터가 많으면 정규 분포에 가까워질 가능성이 높아서 고려할 필요가 없다.