ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [머신러닝] 분류 모델 성능 평가 방법 (1) Confusion Matrix
    머신러닝 배우기 2023. 12. 5. 18:03

    우리는 몇 개 중 몇 개 맞았다에 익숙해져 있습니다. 즉, 정확도에 익숙해져 있는 것이죠. 하지만 예측을 얼마나 잘했는지를 판단하기엔 정확도가 가진 한계가 있습니다. 그래서 다양한 지표들을 함께 봐야합니다. 오늘은 그런 지표들을 알아보기 위해 Confusion Matrix를 배워보겠습니다.

     

    ▶︎ Confusion Matrix 란?

    분류 모델의 성능을 평가하기 위한 표

     모델이 예측한 결과와 실제 결과를 비교하여 모델의 성능을 평가하는 데 사용

    Binary Classification 에서 많이 사용되지만, Multiclass Classification 에서도 확장하여 사용할 수 있음

     

    ▶︎ 참고 

    제 1종 오류(Type I Error) : 실제로는 음성인데 모델이 양성으로 잘못 분류한 경우 (FP)

     제 2종 오류(Type II Error) : 실제로는 양성인데 모델이 음성으로 잘못 분류한 경우 (FN)

     

    ▶︎ 직관적인 정확도 말고 왜 다른 성능 지표들도 봐야하나?

    정확도는 말 그대로 정답인 것들에만 관심이 있습니다. 하지만 세상의 많은 문제들 중에는 틀린 것에 대해 아주 민감한 문제도 많습니다. 문제의 특성과 상황에 따라 단순하게 정답을 많이 맞추는 것이 아닌 틀리지 말아야할, 틀려도 상황에 따라 어떤 것을 틀리느냐에 따라 위험한 상황들이 많습니다. 암 진단과 스팸 메일 분류 두 가지 예를 들어보겠습니다.

    암 진단 위험도 : 암에 걸렸는데 안걸렸다고 하는 것 >> 암에 안걸렸는데 걸렸다고 하는 것 (FN을 줄여야 함)

    스팸 메일 분류 위험도 : 스팸메일인데 아니라고 하는 것 < 스팸메일이 아닌데 스팸메일이라고 분류하는 것 (FP을 줄여야 함)

     이렇게 사람의 생명과 관련있거나 대고객 서비스 등의 문제에서는 틀렸을 때의 민감도와 위험이 엄청납니다. 따라서 문제의 상황에 따라 성능 평가를 다르게 가지고 가야합니다.  

    따라서, Confusion Matrix를 활용하여 모델의 분류 성능을 다각도로 평가하고 비교하여 모델의 목적과 상황을 고려하여 적절한 평가 지표를 선택하고 임계값을 조절해야 합니다.

     

    ▶︎  성능 지표의 종류에는 무엇이 있나?

    ChatGPT : Confusion Matrix의 성능 지표에 대한 답변 중...

     

    ▶︎ 어떤 상황에 어떤 성능 지표를 주로 봐야하나?

    Recall 재현율 : 실제 맞는데 잘못 예측하는 것이 위험한 경우 (FN에 민감한 경우, 암 진단)

    Precision 정밀도 : 실제 잘못됐는데 맞다고 예측하는 것이 위험한 경우 (FP에 민감한 경우, 스팸메일 분류)

     F1 Score : 틀린 것에 민감한 것은 맞는데 Recall을 쓸지, Precision을 쓸지 기준이 안설 때

     

     

     

Designed by Tistory.