ai

분류 평가 지표

comoZ 2024. 3. 18. 13:39

 

분류 평가 지표

                                                    모델의 예측 ⇒ 1                                                예측 ⇒ 0

실제 상태 ⇒ 1 TP( [ 1, 1 ] ) = TRUE FN( [ 1, 0] ) =FALSE
실제 상태 ⇒ 0 FP( [ 0, 1 ] ) = FALSE TN( [ 0, 1] ) = TRUE

위 그림의 ‘정확도’가 일반적으로 생각하는 모델의 성능을 평가하는 방식이다.하고

전체 예측 중 성공 비율을 보여준다.

허나 다른 평가 방식으로 Precision, Recall이 있다.

 

precision

모델의 예측 결과를 Positive, Negative로 나누었을 때 전체 Positive 중 정답 비율을 precision이라고 한다

 

Recall

모델이 Positive라고 예측해야 이상적인 전체 타겟 중 모델이 정확하게 Positive라고 맞춘 비율

 

 

두 평가 기준의 공통점은 TP( [1,1] =True) 값이 높을 수록 점수가 오른다는 것이다.

또한 차이점은 precision은 모델의 Positive의 기준으로 예측 성공률에 집중(TP+FP ), Recall은 모델의 예측을 통한 타겟의 도출율에 집중(TP+ FN)한다.

 

만약 환자의 암 진단 모델이 있다고 가정한다.(여기서 어떤 평가 방식 더 옳은지는 배제)

그렇다면 환자 중 실제 암에 걸려있는 상태를 1, 아닌 건강한 상태를 0이라고

실제 암에 걸린 상태를 타겟으로 지정한다.

그렇다면 여기서

precision은 모델이 1이라고 예측한 값 중 성공률을 뜻하고

recall은 전체 암 환자 중(모델이 1이라고 예측해야 이상적인) 모델의 예측 값이 1인 비율을 뜻한다.

 

 

FN가 중요한 분야는 precision

FP가 중요한 분야는 recall

 

f1- score

둘 다 고려한 경우 f1- score

f1-score = 2 * ( (precision * recall) / (precision + recall)) 

f1-score의 경우 precision과 recall의 조화평균 값으로 (두 점수의 차이량, 두 점수의 절대값)이 점수를 결정한다.

 

 

AUC ( ROC Curve)

Roc curve - 이진 분류기를 성능을 판단하는 방법

 

(암에 걸렸는 확인하는 모델을 예시)

Ture Positive Rate : 실제 암환자 중 Positive 라고 판단한 비율

False Positive Rate : 실제 암에 걸리지 않은 환자 중 Positive 라고 판단한 비율

 

threshold : 좌측 그림의 수직선을 말함

(Roc curve가 좌상단에 붙을 수록)

그래프의 휨 정도를 구별하는 것(그래프의 하단 부분의 면적이 넓다)는 것은 그만큼 이진 분류를 잘해나가고 있다는 것이다.

 

 

참고 영상

https://www.youtube.com/watch?v=xtpffUWlvGk

 

https://www.youtube.com/watch?v=n7EoYT5kDO4