책으로 공부하기

[데이터 분석가의 숫자 유감] 이 정도만 알아도 분석가들에게 무시당하지 않는다!

차근차근 디지털 2023. 12. 14. 14:10

요즘 책 읽는 것에 흥미를 읽어서 만화로 쉽게 볼 수 있는 것은 없을까~ 찾다가 "데이터 분석가의 숫자 유감"이라는 책을 발견하였습니다. 나도 분석가이기 때문에 어떤 내용이 집필되어 있나 궁금했는데, 읽어보니까 하루만에 읽혀지더라구요! 이 책을 읽으면 우리가 쉽게 놓칠 수 있는 통계 바탕의 실수들을 '아차! 조심해야지!' 하면서 다시 생각해볼 수 있게 되고 잘못된 가정과 해석으로 엉뚱한 방향으로 가지 않게 도와줄 수 있을 겁니다. 책의 내용 외에도 더 많은 주의해야할 것들이 많고, 수학적/통계적 수식도 없기 때문에 깊이가 깊지 않지만 오히려 더 잘 이해할 수 있고 재밌고 쉽게 볼 수 있을 것이라고 생각이 됩니다. 특히 책이 일상적인 업무생활을 바탕으로 그려졌기 때문에 기업이 점차 데이터 기반으로 의사결정을 하고 데이터 조직 문화로 가면서 내가 잘못 생각하지 않도록 꼭 한 번 읽어보셨으면 좋겠습니다!

 

"""

데이터 분석은 결국 확률과 통계이고, 과거로 현재를 이해하고 미래를 예측하는 것이다. 확률은 명확하지 않은 신뢰구간과 함께 온다. 늘 정확한 답을 알려주지는 않는다. 하지만 그 방향을 알려주기 때문에 데이터를 알맞고 정확하게 활용할 줄 알아야 한다. 또한 논리적이지 않은 데이터 분석을 보았을 때 '이 내용은 이런 이유로 이 정도 수준으로 확신할 수 없습니다'라고 이야기 할 줄 알아야 한다.

아래는 챕터별 주제와 간단한 내용이므로 참고하시길 바랍니다.

"""

 

1 상관관계와 인과관계

: 진짜 광고 때문에 DAU가 늘었을까?

 

2 숫자의 불확실성

: AB테스트를 했는데 진짜 A가 더 높다고 할 수 있을까?

 

3 모수와 표본

: "모수"는 모집단의 수가 아니라 "모집단의 통계값"이다. 표본은 모집단을 대표할 수 있는 그룹으로 정의해야 하고 표본은 많을수록 좋다. 이 때 사용되는 것이 '큰 수의 법칙'인데, 큰 수의 법칙은 표본의 크기가 충분히 크다면 그때의 표본 평균은 모평균에 충분히 가까워진다는 것이다. 지식과 정의를 확실히 알고 객관적으로 판단하자.

 

4 확률과 분포

: 확률은 사건을 보장해주지 않는다. 전환률이 약 3% 나온다고 해서 늘 3%가 나오지 않는다. 더 적게 나올 수도 있고 더 많이 나올 수도 있다. 그런데 왜 더 적게 나올 때만 이야기를 하지? 더 많이 나오면 가만히 있고...ㅎㅎ 또한 큰 수의 법칙에 따라 여러 번 시행할 수록 더욱 평균에 가까워진다.

 

5 실험을 통한 의사 결정

: 실험은 '기존에 없었던 기록을 얻기 위함'이다. 잘못된 실험으로 데이터를 낭비하거나 시간을 낭비하지 말자.

 

6 그래프 읽기

: 눈속임하는 그래프를 캐치하자

 

7 추세선 그리기

: 추세선을 그리면 깔끔하고 이뻐보이고 전문적이어 보인다. 하지만 써도 괜찮은지 확인하려면 R² 을 같이 사용하자. 이 얼마 이상이어야 사용 가능하다는 것은 도메인이나 데이터 상태에 따라 다르지만 1에 가까울수록 좋고, 0에 가까울수록 실제값과 추세선이 많이 차이가 난다는 것이다. 

 

8 시계열 데이터 

: 고객의 행동은 시간에 영향을 받는다. 때문에 데이터를 볼 때 시간에 따른 변화를 고려하는 것은 당연하다. 시계열 데이터를 분석할 때는 크게 데이터를 '추세', '주기', '계절성'으로 구분한다. 주기는 '형태'의 반복이고, 계절성은 '빈도'의 반복이다.

 

9 별점의 함정

: 데이터를 통해 사람들이 왜 그 행동을 했는지는 알 수 없지만 추정은 할 수 있다. 그렇기 때문에 설문이나 인터뷰를 하기도 하는데 각각의 장단점이 있다. 척도화를 한다해도 사람마다 동일한 마음을 반영하는 것은 아니다. 사람이 주는 점수는 그 사람마다 상대적이다. 그래서 설문 문항이 많으면 사용자의 점수 분포를 동일한 형태로 조정하는 정규화 방법을 쓰기도 한다. 

 

10 인구통계학 정보의 효용성

: 점차 사람들은 더 많은 다양성을 갖고 더 넒은 분야에서 생활하고 있다. 그럴수록 인구통계학적 경계는 옅어진다. 또한 이제는 데이터 구축도 잘 되어있고 데이터가 많으니 행동 데이터를 기반으로 고객을 이해하고 타겟팅하는 것이 필요하다. 고정관념과 뭉뚱그려진 정보로 고객을 특정하지 말자.

 

11 조건부 확률

: 조건에 따라 결과에 대한 기대가 달라진다. 우리는 이것을 베이즈 정리를 통해 구할 수 있다.

 

12 범위 제한을 통한 정확도 향상

: 데이터 분석은 논리의 근간이고, 논리는 명확한 정의와 범위의 제한으로부터 시작된다. 우선 논리적인 가정인지 확인하자.

 

13 평균이란 무엇인가?

: 그 회사 평균 연봉이 얼마라던데~ 라는 함정에 속지말자. 다른 대푯값이나 분포를 함께 볼 줄 아는 사람이 되자.

 

14 데이터 문해력

: 데이터를 사용해서 읽고 쓰고 말하고 듣는 능력을 데이터 문해력이라고 한다. 데이터가 차고 넘치고 다양한 인공지능 서비스들이 출시되면서 데이터를 잘못 해석하지 않도록 공부를 해서 데이터 문해력을 키워야 한다. 

  - 데이터의 출처와 목적을 우선 파악해야 한다

  - 데이터에서 누락된 부분은 없는지 확인한다. 누락되었다면 일부로 숨기는 것은 아닌지 의심해보자

  - 논리에 허점이 없는지 확인하는 것도 중요하다. 의도적으로 해석하지는 않았나 의심하자

 

 

출처 : 데이터 분석가의 숫자유감 (권정민, 골든래빗)

데이터 분석가의 숫자유감 중 뼈 때리는 중요한 말 : https://step-by-step-digital.tistory.com/129

 

[데이터 분석가의 숫자 유감] 데이터 분석에서 뼈 때리면서 중요한 말

데이터 분석가의 숫자 유감이라는 책을 읽다가 데이터 분석가로서 꼭 잊지 않고 가지고 가야할 페이지가 있어서 공유드려봅니다. " 많은 데이터 분석은 모집단의 형태를 추정하는 식으로 이루

step-by-step-digital.tistory.com