분류 평가 지표
모델의 예측 ⇒ 1 예측 ⇒ 0
실제 상태 ⇒ 1 | TP( [ 1, 1 ] ) = TRUE | FN( [ 1, 0] ) =FALSE |
실제 상태 ⇒ 0 | FP( [ 0, 1 ] ) = FALSE | TN( [ 0, 1] ) = TRUE |
위 그림의 ‘정확도’가 일반적으로 생각하는 모델의 성능을 평가하는 방식이다.하고
전체 예측 중 성공 비율을 보여준다.
허나 다른 평가 방식으로 Precision, Recall이 있다.
precision
모델의 예측 결과를 Positive, Negative로 나누었을 때 전체 Positive 중 정답 비율을 precision이라고 한다
Recall
모델이 Positive라고 예측해야 이상적인 전체 타겟 중 모델이 정확하게 Positive라고 맞춘 비율
두 평가 기준의 공통점은 TP( [1,1] =True) 값이 높을 수록 점수가 오른다는 것이다.
또한 차이점은 precision은 모델의 Positive의 기준으로 예측 성공률에 집중(TP+FP ), Recall은 모델의 예측을 통한 타겟의 도출율에 집중(TP+ FN)한다.
만약 환자의 암 진단 모델이 있다고 가정한다.(여기서 어떤 평가 방식 더 옳은지는 배제)
그렇다면 환자 중 실제 암에 걸려있는 상태를 1, 아닌 건강한 상태를 0이라고
실제 암에 걸린 상태를 타겟으로 지정한다.
그렇다면 여기서
precision은 모델이 1이라고 예측한 값 중 성공률을 뜻하고
recall은 전체 암 환자 중(모델이 1이라고 예측해야 이상적인) 모델의 예측 값이 1인 비율을 뜻한다.
FN가 중요한 분야는 precision
FP가 중요한 분야는 recall
f1- score
둘 다 고려한 경우 f1- score
f1-score = 2 * ( (precision * recall) / (precision + recall))
f1-score의 경우 precision과 recall의 조화평균 값으로 (두 점수의 차이량, 두 점수의 절대값)이 점수를 결정한다.
AUC ( ROC Curve)
Roc curve - 이진 분류기를 성능을 판단하는 방법
(암에 걸렸는 확인하는 모델을 예시)
Ture Positive Rate : 실제 암환자 중 Positive 라고 판단한 비율
False Positive Rate : 실제 암에 걸리지 않은 환자 중 Positive 라고 판단한 비율
threshold : 좌측 그림의 수직선을 말함
(Roc curve가 좌상단에 붙을 수록)
그래프의 휨 정도를 구별하는 것(그래프의 하단 부분의 면적이 넓다)는 것은 그만큼 이진 분류를 잘해나가고 있다는 것이다.
참고 영상
https://www.youtube.com/watch?v=xtpffUWlvGk
https://www.youtube.com/watch?v=n7EoYT5kDO4
'ai' 카테고리의 다른 글
미로 찾기 강화학습 과제 후기(3가지 열쇠, 3가지의 문 그리고 Q learning을 곁들인) (1) | 2024.11.10 |
---|---|
qwk metrics (0) | 2024.05.09 |
optimizer & adam (0) | 2024.05.08 |