머신러닝 배우기

[머신러닝] 분류 모델 성능 평가 방법 (2) ROC Curve, AUC

차근차근 디지털 2023. 12. 5. 18:42

지난 번에 분류 모델 성능 평가 방법으로  Confusion Matrix 를 공부해보았습니다. 하지만 무언가 트레이드 오프 관계가 있다는 것을 느끼셨을 겁니다. 실제 트레이드 오프 관계를 표현하기 위한 지표가 ROC곡선이며 오늘은 이 ROC곡선에 대해 배워보겠습니다.

 

▶︎ ROC 곡선 및 AUC(Area Under the Curve)

ROC 곡선 : 여러 결정 임계값에서 재현율과 (1 - 특이도) 사이의 관계를 시각화한 것

      - 재현율 : 실제 양성인데, 양성으로 제대로 예측한 비율

      - 1 - 특이도 : 실제 음성인데, 양성으로 예측한 비율

AUC : ROC 곡선 아래의 면적으로, 모델의 전반적인 분류 성능 지표

 

▶︎  ROC 곡선 작동 원리

1.  민감도와 1-특이도 계산 : 여러 결정 임계값에서 모델의 민감도와 1-특이도를 계산합니다. 민감도는 실제 양성 중 모델이 양성으로 정확하게 예측한 비율이며, 1-특이도는 실제 음성 중 모델이 양성으로 잘못 예측한 비율입니다.

 

2. ROC 곡선 그리기 : 각 결정 임계값에서의 민감도와 1-특이도를 이용하여 ROC 곡선을 그립니다. 그래프 상에서 각 점은 특정 결정 임계값에서의 민감도와 1-특이도를 나타냅니다.

 

3. 대각선(랜덤 수준)과의 비교 : ROC 곡선의 기준은 대각선(1:1 비율)입니다. 이 대각선은 랜덤 수준의 분류 모델을 나타냅니다. 좋은 모델은 이 대각선 위에 위치하며, 곡선이 좌상단 코너에 가까워질수록 모델의 성능이 향상됩니다.

 

4. 면적 계산 (AUC): ROC 곡선 아래의 면적(Area Under the Curve, AUC)을 계산합니다. AUC 값은 0부터 1까지의 범위를 가지며, 1에 가까울수록 모델의 성능이 우수합니다. AUC 값이 0.5에 가까울 경우, 모델의 성능이 랜덤 수준에 가깝다는 것을 의미합니다.

 

▶︎  참고

정밀도와 재현율도 마찬가지로 트레이드 오프 관계에 있습니다. 그래서 정밀도-재현율 곡선 (PR Curve) 를 사용하기도 하고 특히 클래스 간의 불균형이 심한 경우에 유용하며, 마찬가지로 PR AUC (Area Under the Curve)는 모델의 성능을 파악할 수 있습니다.