ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 인과관계 분석 방법론과 주의할 점 요약
    책으로 공부하기 2023. 4. 8. 11:46

    "데이터 분석의 힘_ 그 많은 숫자들은 어떻게 전략이 되는가" 챕터마다 요약된 내용들을 그대로 적었습니다. 상황에 맞는 방법론이 구체적으로 쓰여있으니 아래 요약을 읽고 더 궁금하거나 깊이 알고 싶은 분들은 이 책 읽어보기를 추천드립니다.

     

    Chapter 1) 정말 광고가 아이스크림 매출을 올렸을까 : 데이터의 상관관계는 인과관계가 아니다

    - 데이터 분석의 목적은 대개 '어떤 요인(X)이 결과(Y)에 영향을 미쳤는가?', 즉 'X→Y의 인과관계가 성립하는가'를 확인하는 것이다.

    - 인과관계는 상관관계와 다르다. 상관관계는 X와 Y가 서로 관계가 있음을 의미할 뿐이다.

    - 그러나 인과관계와 상관관계는 혼동될 때가 매우 많다.

    - 비즈니스 현장이나 정책 형성 과정에서 인과관계를 잘못 파악하면 판단 오류로 이어져 큰 손실이나 세금 낭비를 초래하게 된다.

    - 인과관계는 데이터 관측수를 늘리는 것만으로는 파악되지 않는다.

    - 다음 장부터는 인과관계를 파악하는 방법을 소개한다.

     

    Chapter 2) 오바마 캠프는 어떻게 후원금을 더 모았을까 : 최선의 데이터 분석법, RCT

    - 인과관계를 밝히는 가장 좋은 방법은 RCT(무작위비교시행)다.

    - 개입집단과 비교집단을 나누는 것이 중요하다

    - RCT의 원칙 

       1. 인과관계를 밝히기 위해 적절하게 집단을 만든다. 반드시 비교집단을 만들어야 한다.

       2. 집단은 반드시 무작위로 나눈다.

       3. 각 집단에 충분한 표본수를 배정한다.

    - RCT의 강점

       1. 인과관계를 과학적으로 보여준다.

       2. 분석 기법과 결과가 투명하다

    - RCT의 약점 : 비용, 시간, 노력이 많이 들고 각 기관의 협력도 필요하다. 그밖에 RCT의 한계와 그에 따른 주의점 등은 7장에서 설명한다.

     

    Chapter 3) 70세가 되자 병원을 많이 가기 시작했다 : 급격한 변화의 '경계선'을 찾는 RD디자인

    - RCT를 실시할 수 없을 때는 자연실험을 활용할 수 있다.

    - 자연실험이란 실제 실험과 유사한 상황을 이용해 인과관계를 분석하는 기법니다.

    - RD디자인은 온갖 경계선을 활용하여 인과관계에 다가서는 자연실험기법이다.

    - RD디자인의 원칙 

       1. 경계선을 기준으로 한 가지 요인(X)만 비연속적으로 변화하는 상황을 찾아낸다.

       2. 경계선 부근에서 X이외의 요인이 비연속적으로 변화하지 않는지 검증한다.

    - RD디자인의 강점

       1. 가정이 성립하면 경계선 부근에서 RCT와 유사한 상황을 이용할 수 있다.

       2. 주요 결과를 그래프로 나타냄으로써 이해하기 쉬운 투명한 분석이 가능하다

       3. 다양한 상황과 장소에 걸쳐 경계선이 존재하므로 RCT를 대체하는 효과적인 분석 기법니다.

    - RD디자인의 약점

       1. RD디자인의 가정이 성립할 것이라는 근거를 제시할 수는 있지만 실제로 성립한다는 것을 입증할 수는 없다. 이는 RCT와 비교했을 때 큰 약점이다.

       2. RCT는 실험 참가자 전체에 대한 인과관계를 보여주는 반면 RD디자인은 경계선 부근의 데이터에 대한 인과관계만 보여준다.

     

    Chapter 4) 규제 때문에 자동차가 무거워졌다고? : 계단식 변화가 있는 곳엔 집군분석

    - 집군분석은 계단식 변화를 이용하여 인과관계를 밝혀낸다.

    - 집군분석의 원칙 

       1. 계단식 인센티브를 분석에 이용할 수 있는지 확인한다

       2. 분석하고 싶은 변수(X)만 계단식으로 변한다. 다른 변수는 계단의 경계점 부근에서 비연속적으로 변화하지 않는다.

       3. 인센티브가 크게 바뀌는 경계선에서의 데이터 집적을 분석함으로써 개인이나 기업이 인센티브의 변화에 어떻게 반응했는지 인과관계를 검증한다.

    - 집군분석의 강점

       1. 분석에 필요한 가정이 성립하면 경계선 부근에서 마치 RCT가 실시된 듯한 상황을 이용할 수 있다.

       2. 결과를 그래프로 보여줌으로써 투명한 분석이 가능하다

       3. 계단식으로 인센티브가 변화하는 상황은 다양한다. RCT가 불가능할 경우 유용한 분석 기법이다

    - 집군분석의 약점 

       1. 분석에 필요한 가정이 성립할 것이라는 근거를 제시할 수는 있지만 입증할 수는 없다. RCT에 비해 큰 약점이다.

       2. 계단식 인센티브에 반응한 대상(집적한 대상)에 대해서만 인과관계를 분석할 수 있다. 그 때문에 실험 참가자 전체에 대한 인과관계를 분석할 수 있는 RCT에 비해 유용성이 떨어질 때도 있다.

     

    Chapter 5) 세금을 내리면 이민자가 늘어날까 : 시간의 흐름에 따른 패널 데이터 분석

    - 패널 데이터 분석을 이용하려면 복수의 집단에 대해 복수의 기간에 걸쳐 데이터를 수집할 수 있어야 한다

    - 패널 데이터 분석의 원칙

       1. 개입을 전후해서 개입집단과 비교집단 양쪽의 데이터를 입수할 수 있는지 확인한다

       2. 평형 트렌드 가정이 성립하는지 검증한다

       3. 평행 트렌드 가정이 성립할 가능성이 높다면 두 집단의 평균값 추이를 그래프로 그림으로써 개입 효과의 평균값을 측정한다.

    - 패널 데이터 분석의 강점

       1. 필요한 데이터만 확보된다면 RD디자인이나 집군분석 이상으로 광범위하게 이용할 수 있다

       2. 결과를 그래프로 보여줄 수 있어 쉽고 투명한 분석이 가능하다

       3. 개입집단 전체에 대한 개입 효과를 분석할 수 있다. 분석 대상이 제한된 RD 디자인이나 집군분석에 비해 강점이다.

     - 패널 데이터 분석의 약점

       1. 분석에 필요한 가정이 성립할 것이라는 근거를 제시할 수는 있지만 입증할 수는 없다. 이는 RCT와 비교했을 때 큰 약점이다.

       2. RD디자인이나 집군분석에 필요한 가정에 비해 평행 트렌드 가정은 매우 까다로운 가정이며 실제로는 성립하지 않는 경우도 많다.

     

    Chapter 6) 구글은 41가지의 파란색을 고민했다 : 데이터는 어떻게 전략이 되는가

    - 미국을 비롯한 서구에서는 RCT 등을 이용한 인과관계 분석이 기업이나 정부의 의사 결정에 널리 활용되고 있다.

    - 성공의 첫 번째 조건은 기업, 정부와 데이터 분석 전문가의 협력 관계다

    - 성공의 두 번째 조건은 데이터 분석자가 데이터에 접근할 길을 넓히는 것이다.

    - 이 장에서는 미국의 사례를 중심으로 데이터 분석 전문가와 기업의 협력 관계, 데이터 분석 전문가와 정부기관의 협력 관계를 보여주는 구체적인 사례들을 소개했다.

    - 일본에서도 기업이나 정부기관과 데이터 분석 전문가의 협력이 시작되었고 앞으로는 이런 협력이 다양한 분야로 확대될 것으로 예상된다. 

     

    Chapter 7) 그럼에도 데이터 분석은 불완전하다 : 불량 분석을 피하기 위한 방법

     - 어떤 데이터 분석 방법이든 불완전성과 한계가 있음을 인식해야 한다.

    - 데이터 분석 결과가 분석 대상 외에도 적용 가능한가라는 외적 타당성 문제는 매우 중요하다. 상황에 따라 외적 타당성과 내적 타당성을 모두 고려하여 어떤 분석 방법을 쓸지 결정해야 한다

    - 데이터 분석 결과에는 출판 편향이나 협력 관계 편향이라는 문제가 있기 때문에 데이터 분석자나 관련자의 뜻에 맞지 않는 결과는 세상에 나오기 어렵다.

    - 개입집단에 대한 개입이 비교집단에도 파급효과를 미칠 때는 주의가 필요하다

    - 개입이 일반 균형적인 효과를 가져올 경우 소규모 실험의 결과와 대규모 정책의 결과가 다를 수 있으므로 RCT나 자연실험의 성과를 대규모 개입에 활용할 때는 주의해야 한다.

     

     

     

Designed by Tistory.