ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [책 후기] 새빨간 거짓말, 통계
    책으로 공부하기 2024. 4. 6. 10:44

    과거 회사에서 조광수 박사님에게 컨설팅을 받았을 때 "새빨간 거짓말, 통계"라는 책을 추천받았었다. 읽어보지는 못하고 제목이 강렬해서 기억은 하고 있었다. 그러다가 최근 데이터리안에서 데이터 분석 관련 도서를 읽으며 글로 기록을 남기는 챌린지를 이 책으로 한다는 소식을 듣고 신청해보았다. 이 책은 실생활에서 쉽게 빠질수 있는 통계적 오류들을 쉽고 재밌는 실생활 예시로 설명하며 통계의 왜곡된 위험에 대해서 알려주고 있다. 데이터 분석가들도 쉽게 빠지는 오류들인 것 같아서 조심해야 겠다는 생각이 우선적으로 들었다. 

     

    가장 첫 장에 나온 예시는 "1924년도 예일대학 졸업생의 연간 평균소득은 25,111달러이다"로 시작한다. 표본을 근거로 어떤 결론을 내릴 때 그 표본은 모집단 전체를 대표해야 한다. 그 표본이 모집단 전체를 대표하는지 확인하려고 추출한 표본의 크기가 충분해야 하며, 그 표본을 선택한 방법이 적절해야 한다는 것이다. 즉, 왜곡의 원인이 되는 모든 것을 제거하고 난 충분한 그리고 임의추출된 표본이어야 한다. 

     

    얼마 전에 면접을 보았는데 면접관이 이렇게 물어보았다. "새로운 기능의 사용성을 파악하기 위해 사용자를 대상으로 설문조사를 했다고 했는데, 해당 기능을 써본 사람은 이미 회사와 친밀도가 형성된 사람 아닌가요?" 나는 방어를 위해 "해당 기능을 써본 다양한 연령대에게도 함께 조사를 했고 사용하는 사람들은 회사 앱을 사용하는 사람들이기 때문에 때문에 객관적이라고 할 수 있을 것 같습니다. " 라고 우선은 답했다. 모집단 : 간편 모드를 쓸 사람들. 표본 : 간편 모드를 써본 사람들 중 랜덤 추출. 생각을 해보니 새로운 기능이 나온지 2달 밖에 되지 않고 조사를 진행했는데 진행한 사람들은 새로운 간편모드의 존재를 알고 있고 '간편하다'는 것에 관심을 보이는 사람들이었다. 해당 기능이 물론 모두가 쓸 수 있지만 작은 글씨가 보이지 않고 다양한 기능이 복잡하다고 느끼는 어르신들을 타깃으로 만들어졌다보니 어르신들을 대상으로, 그리고 사용여부와 상관없이 랜덤으로 추출하여 간편모드에 대한 기능을 알려드리고 나서 사용해본 후 설문조사를 받는 것이 맞다는 생각이 들었다. 업무를 하다보니 큰 그림을 그리지 않고 정신없이 하라고 하니 수행했던 일이지만 주체적이지 못한 것에 창피하기도 했고 데이터 분석가로서 객관적으로 어떤 조사방법이 맞는지 생각해보았어야 했다. 앞으로는 이런 실수가 벌어지면 안된다고 생각을 해 계속 뇌에서 맴돌던 중에 첫 장이 여론 조사 관련이라 더욱 주의해야 겠다는 생각이 들었다. 

     

    그리고 또한 자주 하는 실수들을 예시를 통해 설명해주셨다. 

     

    (예시) 주민들의 연간 평균 소득은 1억이다? 2천만 원이다?

    (문제점) 평균이라고 하지만 산술평균, 중앙값, 최빈값 중 어떤 것인지 모호하다. 일부로 여론몰이나 정치, 영업 행위 등 의도적으로 악용할 수 있다. 특히 급여 부분에서는 고용 형태 (알바, 임시직, 청소부, 시간제, 계약직 등)가 어디까지 포함되었는지 비교하는 대상이 같은지도 놓칠 수 있는 부분이다. 

    (개선) 데이터의 분포에 따라 적절한 평균값을 사용해야 한다, 오차 범위까지 알려주면 좋다. 

     

    (예시) 도크스 회사의 치약으로 23% 충치 감소

    (문제점) 12명을 대상으로 한 불충분한 표본 채택, 불리한 대상들에게 우연에 의한 원하는 결과가 나오게 재실험. 실험 방식의 오류. 아무런 차이가 없는 결과를 우연에 의해 만들어내었다.

    (개선) 충분한 표본 조사, 충분한 표본을 조사하지 못할 경우 유의판정으로 우연에 의한 것인지 아닌지 확인

     

    (예시) IQ가 높으면 좋고, 낮으면 안좋다?

    (문제점) 지능검사에는 지도력, 창조성, 근면성, 정서 균형, 개성, 판단력, 예체능 적성 등의 역량은 무시되어 있다. 검사는 상당 부분을 독해 능력에 의존하고 있다. IQ점수도 확률적 오차를 포함하여 정확성/신뢰성을 알려줘야 한다. 

    (개선) 예상오차나 표준오차를 함께 기재해야 한다. 산정 방식 확인

     

    (예시) 담배를 피우면 공부를 못한다?

    (문제점) 전후관계와 인과관계를 혼동하는 오류. 흡연을 해서 성적 불량이 아니라, 성적 불량한 학생이 흡연하는게 아닐까. 또는 양쪽 모두 제 3요인의 결과일 수 있음. 책을 멀리하면 사람 만나는 것을 즐겨 담배를 피울 수 있다. 

    (개선) 상관관계를 언급할 때는 조심해야 한다. 표본 수가 적어 우연히 일어나는 상관관계도 있고 제 3의 요인이 있을 수도 있다. 1대1의 이상적인 관계가 아니라 어느 정도 가면 떨어질 수 있다는 것을 알아야 한다. (즉, 비선형성이 있다는 것을 염두해둬야 한다)

     

    통계의 속임수를 피하는 다섯 가지 열쇠

    1. 출처 확인. 누가 왜 이런 통계를 냈을까? 자신이 주장하는 이론의 완벽성을 과시하기 위해서? 명예를 위해서? 돈을 목적으로? 

    2. 조사 방법 확인. 표본이 왜곡된 것은 아닌지, 표본 추출 방법이 부적당했을 수도 있고 충분하지 않은 표본수를 활용했을 수도 있다. 

    3. 빠진 데이터는 없는지 확인해야 한다. 표본의 크기, 신뢰도, 출처, 어떤 평균값, 백분율만 제시 등

    4. 쟁점을 바꿔치기한 것은 아닌지 확인. 우리나라 코로나 수가 늘었다고 진짜 늘은 것이 아니라 그만큼 검사를 많이하거나 경미한 증상까지 간주하는지 그리고 사적인 문제에 관한 조사일 때는 이야기한 내용과 실제 행동이 다를 수 있다. 또한 '농촌으로 돌아가자' 농촌의 기준이 바뀐 것 처럼 정의가 동일한지, 상관관계/전후관계를 인과관계로 혼동한 논리적 오류는 아닌지 

    5. 상식적으로 말이 되는지 확인. 산출한 지표가 논리적인 방식인가? 결론이 합리적인가

     

     

    참고 문헌 : 새빨간 거짓말, 통계 (대럴 허프, 더불어책)

Designed by Tistory.