ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 현업에서 사용하는 데이터 분류 (업무 데이터, 로그 데이터)
    정보공유 경험나눔 2024. 1. 9. 19:11

    저는 은행에서 일했던 데이터 분석가입니다. 많은 분들이 은행에는 어떤 데이터들이 있냐고 물으시는데 오늘 한 번 정리해보도록 하겠습니다. 우선 크게 '서비스나 프로덕트를 운용하면서 쌓이는 업무 데이터'와 필수적이진 않아도 행동 관찰과 분석에 필요한 로그 데이터로 나뉠 수 있습니다.

     

    ▶︎ 업무 데이터

     개념 : 서비스와 시스템을 운용하기 위한 목적으로 구축된 데이터

     특징

    : 데이터 처리 도중 문제가 발생하면, 트랜잭션과 롤백이 기능하기 때문에 데이터의 정합성이 보증된다. 정확한 값이 요구되는 업무 보고 데이터에 적합

    : 대부분 갱신형 데이터이다. 변화가 있을 때 추가, 갱신, 제거됨(또는 경우에 따라 일별로 찍어놓기도 함)

        예) 고객이 탈퇴하는 경우, 데이터를 물리적으로 제거, 상품 가입을 취소하는 경우 플래그를 통해 상태를 변경하여 논리적으로 제거, 주소 및 직업이 변경되는 경우 사용자 정보 갱신.

    → 데이터 축적 방법 : 데이터마다 축적 방법이 다르므로 이를 잘 이해하고 분석을 시작해야 하고, 보고서 제출 시 '추출 시점의 정보를 기반으로 작성된 리포트다'라는 것을 명시해야 혼동이 없습니다.(다른 부서와 추출 시점이 달라서 숫자가 다른 것이 문제가 된 적이 있었음.)

    1. 데이터가 갱신되거나 제거되는 경우 데이터를 추출하는 시점에 따라 추출되는 데이터가 바뀔 수 있다는 것을 인지하고 필요에 따라 임시 테이블로 만드는 작업이 필요함. 최신 상태로 업데이트가 되면 과거의 정보를 잃어버린다는 것을 주의해야 함.

    2. 또는 모든 레코드의 스냡샷을 날짜별로 저장하는 방법도 있음. 출력 결과의 변경으로 인해 보고서 숫자가 바뀌면 신뢰성이 낮아짐. 데이터 용량적인 측면에서 좋지 않지만, 신뢰성은 보장할 수 있음.

    3. 어제 데이터와 차이나는, 즉 변경된 데이터만 저장하기. 데이터 전송량과 처리 시간에서 유리

     

    운영 서버에서 분석 서버에 전송하는 방법 : 'Apache Sqoop'같은 RDB에서 빅데이터 분석기반으로 데이터를 로드해주는 시스템 사용

    → 종류 : 트랜잭션 데이터 + 마스터 데이터

    • 트랜잭션 데이터
      • 개념 : 서비스와 시스템을 통해 사용자의 행동을 기록한 데이터
      • 종류 : 적금 가입 데이터, 대출 신청 데이터, 대출 승인 데이터, 앱 로그인 데이터 등
      • 활용 : 트랜잭션 데이터를 기반으로 리포트(보고서)를 만드는 경우가 많습니다.
      • 예) 로그인 데이터를 통한 2023년 MAU 추이, 00적금 가입 건수, 대출 승인율 등
    • 마스터 데이터(= 메타 데이터)  
      • 개념 : 서비스와 시스템이 정의하고 있는 데이터
      • 종류 : 고객 데이터, 상품 데이터, 화면 데이터 등
      • 활용 : 트랙잭션 데이터만으로는 잘 팔리는 상품의 명칭이나, 상품 카테고리별 신규 가입 좌수, MAU고객의 성연령별 비율 등을 알 수 없기 때문에 마스터 데이터와 트랙잭션 데이터를 합하여 풍부하고 직관적인 분석 업무의 폭을 넓힐 수 있다.

    ▶︎ 로그 데이터 

     개념 : 특정 행동을 서버 측에 출력한 데이터, 특정 태그를 포함해서 전송된 데이터, 통계 분석을 주 용도로 설계된 데이터. 서비스 처리에 영향을 주지 않지만 분석에 유용하게 활용됨

     특징 

    : 전송 방법에 따라 중간 손실이 발생할 수도 있음. 

    : 누적형 데이터이다. 출력 시점의 정보를 축적해둠. 따라서 과거의 데이터가 변경되지 않음. 하지만 데이터양이 많기 때문에 일정 기간 경과하면 삭제하는 내부 규칙이 있기도 함

    : 로그를 어떻게 추출하고 집계하는지 제대로 파악하지 않고 사용하면 잘못된 판단을 내릴 수도 있음. 따라서 어떤 로그데이터이고 어떤 방법을 사용할지, 설명할 범위는 어느 정도인지 명확하게 결정해야 함

    종류 : 시간, 사용자 엔드 포인트, IP, UUID, 레퍼러, Cookie(Session) 등

     활용 : 사용자 에이전트, 방문 행동 기록, UI 변경으로 인한 고객 유도 기록, 페이지별 방문 횟수,  사용자 기기에 따른 고객 연령 비율. 열람 페이지, 인기 페이지의 페이지뷰, PV/UV, 고객당 평균 액션 수, 장치별 방문 수, 시간에 따른 방문자수 등의 지표 파악 가능

    주의할 점

    : 로그 출력 시점과 메타 데이터의 변경 시점을 고려하여야 한다. 

    : 누락이 있을 수도 있고, 크롤러의 로그가 함께 포함되어 집계될 수도 있다. 따라서 정확한 값이 필요한 경우에는 적합하지 않고 참고 내부 자료용으로 쓰는 것을 추천.

    → 데이터 축적 방법 

    1. 비컨 형태 : 태그, SDK를 통해 사용자 장치에서 데이터를 전송하고 출력하기. HTML에 특정 태그를 집어넣고 데이터를 전송하는 방식

    2. 서버 형태 : 서버에서 데이터를 추출하고 출력하기, 클라이언트 쪽에서 별도의 처리를 하지 않고 서버에서 로그를 출력하는 방식. 서버에 요청이 있을 때 출력하므로, 다로 크롤러의 접근을 확인하고 조건을 걸지 않는 이상 크롤러의 접근도 출력됨. 이런 데이터를 사용하여 사용자의 행동을 집계/분석하면 잘못된 판단을 내릴 수 있음. 따라서 의도하지 않은 로그를 제고하는 과정을 반드시 거쳐야함

     

    ▶︎ 업무+로그 두 데이터를 함께 사용했을 때 발생하는 새로운 가치. 

    : 특정 미디어나 광고로 유입된 사용자가 상품 가입율이 높다면? 해당 미니어와 광고를 더 많이 활용한다

    : 이벤트 문자 발송 고객이 앱에 유입되었을 때 이곳 저곳 둘러보고 갈피를 못찾는다면, 행동 유도를 위한 UIUX나 프로세스를 바꾼다.

    이처럼 두 데이터를 함께 활용했을 때 분석 가능성은 더 넓어지고 높아집니다. 

     

    ▶︎ 데이터 잘 활용하여 데이터 사용 가치 높이기

    1. 목표를 관리하고, 설계하고, 서비스/조직의 성장에 기여하기

    : MAU, 매출, 상품 가입좌수, PV 등 지향하는 목표가 현재 어느 정도 진행되었는지 파악하고 부족한 경우 이를 달성할 수 있는 시책을 검토/실시하면 서비스의 성장에 기여할 수 있습니다.

     

    2. 사용자 행동을 기반으로 경향을 발견하고, 매출과 서비스 개선에 기여하기

    : 사용자 인터뷰도 물론 필요하지만 시간이나 비용적으로 효율적이진 않습니다. 또한 인터뷰에 응하는 그룹군에 따라, 샘플수와 질문의 유형 등에 따라 신뢰도가 달라지기 때문에 이를 전체에 적용할 수 있을지 확신할 수 없습니다. 따라서 대량의 데이터를 기반으로 사용자 경향을 발견하고, 이를 통해 매출 향상과 서비스 개선에 기여하는 것이 효과적일 수 있습니다. 

     

    3. 과거의 경향을 기반으로 미래의 행동 예측하기

    : 웹사이트에서 특정 행동을 취한 고객이 빠른 시일 내에 탈퇴하는 경향이 있다면 이를 미리 파악해서 사전에 대응할 수 있습니다. 또는 상품 추천 시스템 등을 활용하는 등 과거의 데이터를 통해 사용자들의 행동을 예측하여 전조 증상을 감지하거나 더 잘 활용할 수 있습니다.

     

    4. 또는 추가적인 데이터를 수집하여 활용할 수도 있습니다. 학생증과 연계된 계좌 개설이면 대학교, 지역 등을 추가 확보하여 분석할 수도 있는 등 기업이나 정부에서 제공하는 데이터를 수집하여 활용할 수도 있습니다. 

     

     

     

     

    참고 : 데이터 분석을 위한 SQL레시피 ([가사키 나가토, 다미야 나오토], 한빛미디어)

     

Designed by Tistory.