-
데이터에 기반한 경영은 머신러닝과 닮아있다?정보공유 경험나눔 2024. 1. 18. 01:09
1. 애자일 방법론과 부스팅 기법
오늘 프로젝트 기획에 관한 수업에서 애자일 방법과 워터폴 방법에 대해 배웠습니다.
짧은 개발 주기로 반복적인 개발을 거치며 더 나은 프로덕트를 만든다? 어디서 많이 들어봤는데? 이전 모델이 잘못 예측한 데이터에 가중치를 부여하며 더 나은 분류기를 만든다? 애자일과 부스팅 기법이 비슷하다는 생각이 들었습니다.
애자일 방법은 짧은 개발 주기를 가지고 반복적으로 개발하고, 고객의 피드백이나 새로운 요구사항 같이 중간에 변경이 필요한 경우 빠르게 수정하며 반복할수록 더 좋은 프로덕트를 만들어냅니다.
부스팅(boosting)은 여러 개의 약한 학습기(weak learner)를 결합하여 강력한 학습기(strong learner)를 만드는 앙상블 학습 기법 중 하나인데, 이전 모델이 잘못 예측한 샘플에 가중치를 부여하면서 모델을 학습합니다. 이를 반복할수록 강한 분류기가 생성됩니다.
둘다 이전의 보완할 것을 다음으로 넘겨 개선하고 더 나은 것을 만든다. 비슷하지 않나요?
2. 데이터로 찾는 정답과 머신러닝으로 찾은 정답
많은 기업들이 데이터에 기반하여 의사결정을 합니다. 이는 불확실성을 줄이기 위해서 입니다. 하지만 아무리 데이터에 기반한 의사결정을 했다고 해도 명확하게 Global Optimum 이라고 할 수는 없습니다. 시대/계절/월/시간 등 시계열적 요소에 따라 정답이 달라질 수 있으며, 진짜 정답은 따로 있지만 아직 생각해내지 못했을 수도 있습니다. 그래도 Global Optimum 를 찾기 위해 다양한 실험과 아이디어를 생각해내고 시도를 해봅니다.
이는 cost function을 minimize하는 Gradient descent algorithm 과 닮아있습니다. 경사 하강 알고리즘은 초기 위치에 따라 Local Optima에 빠질 수 있습니다. 하지만 여러 시작점에서 실험하여 Global Optimum를 찾으려고 노력합니다.
데이터로 의사결정하는 것과 머신러닝으로 최적해를 찾는 것 모두 여러 시도를 해보는 과정을 통해 진짜 답을 찾으려 노력한다는 점이 닮아있습니다.
3. 도메인을 활용해 의사결정하고, 도메인을 활용해 피쳐 엔지니어링을 한다.
의사결정을 직관만으로 하지 말라고 하지만, 그 직관이 도메인에 대한 충분한 이해도가 있고 합리적이라면 이를 실험해보고 채택하는 절차를 거쳐야 합니다. 이러한 직관이라면 해당 action이 성공할 확률이 높아지겠죠.
Domain Knowledge 에 따라 유용하고 의미 있는 정보를 가지고 피쳐 엔지니어링을 진행하여 모델의 성능을 향상시킬 수 있습니다. 기존의 피쳐를 파싱하거나 조합하여 새로운 피처를 만들고 구간화 하여 변수의 복잡도를 줄이고 모델이 특정 범위에서 패턴을 학습할 수 있도록 변환하기도 합니다. 또는 원핫 인코딩을 진행하거나 두 변수를 활용해 상호작용 피처를 만들고, 올바르게 결측값을 처리할 수 있으며, 중요하다고 생각하는 정보를 외부 데이터를 활용하여 가져올 수도 있습니다.
이처럼 도메인 지식에 따라 프로젝트를 기획하여 성공 확률을 높이고, 피쳐 엔지니어링을 통해 모델의 성능을 향상시킬 수 있습니다.
'정보공유 경험나눔' 카테고리의 다른 글
ESR 마케팅 알림을 통해 살펴보는 이탈고객 끌어들이는 법 (1) 2024.02.06 제너럴리스트 vs 스페셜리스트, 나는 어떤 성향일까? (1) 2024.01.26 지표를 설정해야 하는 이유 (1) 2024.01.17 [Mac] Homebrew 설치하는 법 (0) 2024.01.10 현업에서 사용하는 데이터 분류 (업무 데이터, 로그 데이터) (1) 2024.01.09