분류 모델의 성능 지표는 모델이 얼마나 정확하게 예측하는지를 평가하기 위해 사용된다. 다양한 성능 지표를 통해 모델의 장단점을 파악하고, 이를 바탕으로 모델을 개선할 수 있다.

 

  이번 글에서는 분류 모델의 성능 지표로 널리 사용되는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-Score, 그리고 Confusion Matrix에 대해 알아본다.

Confusion Matrix

  Confusion Matrix은 모델의 예측 결과를 실제 클래스와 비교하여 4개의 주요 요소로 구성된 표다. 이를 통해 모델의 성능을 자세히 분석할 수 있다.

 

  • True Positive (TP): 실제 긍정 클래스를 긍정으로 정확히 예측한 경우
  • True Negative (TN): 실제 부정 클래스를 부정으로 정확히 예측한 경우
  • False Positive (FP): 실제 부정 클래스를 긍정으로 잘못 예측한 경우
  • False Negative (FN): 실제 긍정 클래스를 부정으로 잘못 예측한 경우

Accuracy (정확도)

  정확도는 모델이 올바르게 예측한 샘플의 비율을 나타내는 가장 기본적인 성능 지표다. 전체 예측 중에서 정확한 예측의 비율을 계산한다.

  정확도는 데이터셋이 균형 잡혀 있을 때 유용하지만, 불균형 데이터셋에서는 적합하지 않을 수 있다. 예를 들어, 부정 클래스가 매우 많은 경우, 모델이 대부분 부정 클래스라고 예측하더라도 높은 정확도를 가질 수 있다.

Precision (정밀도)

  정밀도는 모델이 예측한 긍정 클래스 중 실제로 긍정 클래스인 비율을 나타낸다. 양성 예측의 정확성을 의미한다.

  정밀도는 특히 False Positive가 중요한 경우 유용하다. 예를 들어, 스팸 필터링 시스템에서 스팸으로 잘못 분류된 정상 메일의 비율을 낮추고자 할 때 중요하다.

Recall (재현율)

  재현율은 실제 긍정 클래스 중 모델이 긍정 클래스로 정확히 예측한 비율을 나타낸다. 전체 양성 중에서 모델이 얼마나 잘 찾아냈는지를 의미한다.

  재현율은 특히 False Negative가 중요한 경우 유용하다. 예를 들어, 암 진단 시스템에서 실제 암 환자를 놓치는 비율을 최소화하는 것이 중요할 때 사용된다.

F1-Score

  F1-Score는 정밀도와 재현율의 조화 평균으로, 두 지표의 균형을 맞추는 지표다.

  F1-Score는 데이터셋이 불균형할 때 특히 유용하다. 높은 정밀도와 재현율을 동시에 유지하려는 상황에서 좋은 평가 지표가 된다.

$F_\beta$ Score

 

  F2-Score는 F1-Score와 유사하지만, 재현율(Recall)을 정밀도(Precision)보다 두 배 더 중요하게 여기는 경우에 사용된다. F2-Score는 특히 False Negative를 줄이는 것이 중요한 상황에서 유용하다. F2-Score는 F1-Score의 일반화된 형태로, 베타 파라미터(β)를 사용하여 정밀도와 재현율의 가중치를 조정할 수 있다.

 

  F0.5-Score는 F1-Score의 변형된 형태로, 정밀도(Precision)를 재현율(Recall)보다 더 중요하게 여기는 경우에 사용된다. F0.5-Score는 정밀도에 더 높은 가중치를 두어, 모델이 긍정 클래스를 얼마나 정확하게 예측하는지를 강조한다. 이 지표는 False Positive를 줄이는 것이 중요한 상황에서 유용하다.