-
[김팀장 3부] 데이터로 비즈니스를 혁신하기책으로 공부하기 2023. 3. 18. 11:27
- 추천 시스템 사례 : 넷플릭스에서 영화 시청의 3분의 2가 추천 시스템으로 발생한다. 아마존에서 팔린 상품의 3분의 1은 추천 시스템에 의한 것이다. 구글 뉴스도 추천 뉴스를 클릭해서 보는 비율이 대략 38%이고, 링크드인에서 입사 지원의 절반이 추천 시스템에 의해 발생한다.
- 추천 시스템이 추천하는 것 : 대체재, 보완재, 베스트셀러 (기본이 중요. 상품군별 등 특성으로 나눠서 구분해서 보여주면 베스트 셀러가 가장 효과가 좋음. 따라서 상품의 카테고리를 잘 정비하는 것이 중요)
- 사용자 기반 : 상품 간 유사도 비교 (피어슨 상관계수), 사용자가 많아지면 계산하는데 시간이 너무 많이 걸리고, 그 시간을 줄이려면 IT 비용이 많이 든다. 그래서 추천 결과를 계산하는 시간과 비용을 줄이기 위해 아이템 기반 협업 필터링을 많이 쓴다.
- 아이템 기반 : 회원 간 유사도 비교 (피어슨, 코사인 유사도)
- 모델 기반 협업 필터링 : 차원 축소나 그룹화 사용
- 콘텐츠 기반 정보 필터링 : 키워드 방식. 영화로 예를 들면 장르, 주연 배우, 제작 연도, 감독 등 키워드로 콘텐츠를 추출해서 추천 (넷플이나 아마존의 경우 협업 필터링을 기본으로 콘텐츠 기반 추천 시스템 가미하여 알고리즘 만듦)
- 추천 알고리즘의 성과를 측정하고 싶으면 A/B 테스트로 기존 추천 시스템을 보여준 대조군과 고도화한 추천 시스템을 보여준 실험군 간의 매출액 차이를 보면 추천 시스템 개선 성과를 판단할 수 있다.
- 추천 시스템 주의할 점 : 1. 초기 사용자 문제(Cold Start Problem) : 처음 방문하거나 막 가입한 사람에게는 개인화를 할 수 없으니 베스트셀러를 노출하는 것이 낫다. 2. 조작 공격 (Shilling Attack) : 리뷰나 평점 등을 조작하여 데이터가 정확한 값이 아님 (이런 것들을 구별할 수 있는 알고리즘도 필요)
- 소셜 네트워크 분석 : 개인과 집단 간 관계를 노드와 링크로 표현해서 분석하는 방법. 네트워크 분석에서는 정규 분포를 가정하지 않는다. 개체 간 관계의 분포는 일반적으로 멱함수를 따른다.
- 멱함수 분포 : 노드의 수가 많아질수록 특정 노드에 링크가 집중되는 것을 보여주는 분포
- SNA는 단순히 SNS 분석뿐만 아니라 금융사기 탐지, 감영경로나 전파력 파악, 지식 탐색, 고객 관계 관리, 조직 진단 등 여러 분야에 사용
- SNA 분석 결과는 분석가와 현업 전문가가 함께 해석하고 문제점을 찾아 해결방안을 도출해야 한다.
- 소프트웨어 사용법보다 더 중요한 것은 현상을 데이터 분석 프레임워크에 맞추어 해석하는 능력과 적절한 데이터 분석 방법론을 선택하는 능력이다.또한 데이터 분석 결과를 해석하여 현실의 의사결정에 활용하는 능력이 중요하다.
정보사회진흥원. 빅데이터 역량 모델 '책으로 공부하기' 카테고리의 다른 글
분석의 가장 기본 : 변수 특성 확인하고 적절한 분석 방법론 찾기 (0) 2023.03.18 나도 데이터 해결사가 되고 싶다면? [감으로만 일하던 김팀장은 어떻게 데이터 좀 아는 팀장이 되었나] (0) 2023.03.18 [김팀장 2부] 더 다양한 분석 방법론과 기술통계량 (0) 2023.03.18 [김팀장 1부] 전통 통계학 방식으로 분석 결과 해석하기 (0) 2023.03.18 비전공자를 위한 이해할 수 있는 IT지식 [정보요약편2] (0) 2023.03.10