인과관계 분석의 다양한 방법론과 책 후기
과거 이공계, 통계학과만의 영역이었던 데이터 분석이 다양한 직업의 종사자들과 대부분의 사람들에게 필수적인 역량이 되었습니다. 데이터 분석은 데이터 사이언티스트나 엔지니어들뿐만 아니라 의사결정을 하는 임원, 의사결정을 위한 보고 자료를 만들고 제안하는 직원, 미래의 방향을 찾고 어떤 시장이 유망할지, 어떤 고객이 어떤 물건을 좋아하는지 고민하는 사업자들 모두에게 필요한 역량이 되었습니다. 기술적인 데이터 수집이나 처리, 분석을 직접하지 않더라도 정확하게 읽고 "해석"하는 것은 말할 것도 없습니다. 데이터로 현실을 해석하는 것은 인과관계를 파악하여 미래의 사업 전략을 구체화하는 시발점입니다. 성공과 실패를 좌우하는 때로는 무섭기도 조심스럽기도 하고, 때로는 고맙고 중요한 부분이기 때문에 올바르게 설계하고 정확하게 해석해야합니다.
내가 생각하는 것이 과연 맞을까? 라는 생각이 들 때, 가설을 세우고, 실험해보고, 정확한 결과를 계산하고 해석하면 됩니다. 하지만 정확하게 해석하기 위해서는 가설을 올바르게 세울줄 알아야하고 실험을 정확하게 설계할 줄 알아야합니다. 그것이 가장 최우선이고 가장 중요하며 이것이 틀어지면 아무리 맞게 해석을 해도 애초에 시작부터가 잘못된 망한 실험입니다.
분석가로서 다양한 방식으로 실험을 하는데 최대한 독립변수와 종속변수의 관계를 정확하게 파악하고 효과를 측정하기 위해 다른 변수들은 통제를 하는데 그렇지 못하는 경우들도 꽤 많습니다. 마케팅 실험에서는 실험 설계만 잘하면 가능한 부분이지만, 상품이나 서비스 같은 경우에는 말이 다릅니다. 즉 대고객 채널로 모두에게 동일한 서비스를 해야하는 것들은 RCT가 불가능한 경우가 많고 마케팅이나 광고처럼 해도 그만 안해도 그만인 경우는 상대적으로 수월합니다. 예를 들어 새로운 적금 상품이 나와서 문자, 알림톡, 배너, 푸시 등 여러 매체를 통해 적금을 홍보하고 그에 다른 CTR과 CVR, 단가를 측정하면서 어느 매체가 신상 적금의 홍보 효과로 가장 적절한지 파악할 수 있습니다. 하지만 이와 반대로 금리가 변경되었을 때, 일부는 기존 금리를 적용하고 일부는 변경 금리를 적용할 수는 없습니다. 또한 가입 프로세스를 여러 방법으로 나누어서 실험해보고 더 효과적인 프로세스를 찾기에는 많은 개발/기획 인력, 상담 직원 등이 투입되고 시간과 비용 등 그 이상의 자원이 투입되어야하기 때문에 현실적으로 어렵습니다. 이러한 경우에는 어떻게 해야하나 고민하고 방법론을 찾아봤었는데 딱 이 책에 구체적인 설명과 사례를 설명해주셨더라구요!
"데이터 분석의 힘"은 구체적인 사례와 인포그래픽을 통해 데이터 분석법 가운데 가장 기본적인 인과관계 분석에 대해 설명하고 있습니다.
- 1장. 데이터에서 인과관계, 즉 원인과 결과를 이끌어내기 어려운 이유를 설명합니다.
- 2장. 인과관계 분석 방법 중 가장 확실한 방법인, RCT(Randomized Controlled Trial)를 소개합니다. (=AB테스트)
(3,4,5장부터는 RCT가 불가능한 경우, 어떤 자연실험 기법을 쓰는지 소개합니다.)
- 3장. 각종 경계선을 활용하여 실험 없이도 실험을 실시한 듯한 상태를 찾아내 인과관계를 도출하는 RD(Regression Discontinuity Design)디자인을 설명합니다.
- 4장. 계단식으로 변화하는 경우들에 활용하는 집군분석을 설명합니다.
- 5장. 여러 기간에 걸쳐 데이터를 입수할 수 있을 경우 사용되는 퍼널 데이터 분석을 소개합니다.
- 6장. 소개한 분석 방법론을 구체적인 사례를 통해 비즈니스 전략이나 정책 형성에 활용할 방법을 고민해봅니다.
- 7장. 데이터 분석의 불완전성과 한계에 대해 설명합니다.
각기 다른 상황과 환경에서 알맞은 분석방법론을 정하고 정확한 해석을 하고 싶은 분들께 이 책을 추천합니다!
"데이터 분석의 힘_ 그 많은 숫자들은 어떻게 전략이 되는가(이토 고이치로. 인플루엔셜)"