본문 바로가기

Analytics/Study

실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(1)

실전 투입 첫번째는 의료 데이터이다.
관련 Kaggle 링크
https://www.kaggle.com/datasets/andrewmvd/heart-failure-clinical-data

Heart Failure Prediction

12 clinical features por predicting death events.

www.kaggle.com

 

데이터 소개

- 이번 주제는 Heart Failure Prediction 데이터셋을 사용합니다.

- 다음 1개의 csv 파일을 사용합니다.
heart_failure_clinical_records_dataset.csv

- 각 파일의 컬럼은 아래와 같습니다.
age: 환자의 나이
anaemia: 환자의 빈혈증 여부 (0: 정상, 1: 빈혈)
creatinine_phosphokinase: 크레아틴키나제 검사 결과
diabetes: 당뇨병 여부 (0: 정상, 1: 당뇨)
ejection_fraction: 박출계수 (%)
high_blood_pressure: 고혈압 여부 (0: 정상, 1: 고혈압)
platelets: 혈소판 수 (kiloplatelets/mL)
serum_creatinine: 혈중 크레아틴 레벨 (mg/dL)
serum_sodium: 혈중 나트륨 레벨 (mEq/L)
sex: 성별 (0: 여성, 1: 남성)
smoking: 흡연 여부 (0: 비흡연, 1: 흡연)
time: 관찰 기간 (일)
DEATH_EVENT: 사망 여부 (0: 생존, 1: 사망)

기본적인 데이터 분포 정보는 Kaggle에서도 제공한다.
 

 
 

Accuracy, Precision, Recall

  • Confusion Matrix
  • True Positive(TP) : 실제 True 인 데이터를 True로 예측한 경우 (O)
  • Flase Positive(FP): 실제 False인 데이터를 True로 예측한 경우 (X)
  • True Negative(TN): 실제 Flase 인 데이터를 False로 예측한 경우 (O)
  • Flase Negative(FN): 실제 True인 데이터를 False로 예측한 경우 (X)

 
이를 활용한 지표들

  • Accuray (정확도) : 전체 데이터 중 올바르게 예측한 수의 비율 ( TP + TN / 전체)
  • Precision (정밀도) : Ture로 예측한 데이터 중에 실제 True인 수의 비율 ( TP / TP + FP) = 예측했을 때 옳게 예측한 확률
  • Recall (재현율) : 실제 True인 데이터 중 True 로 예측한 수의 비율 (TP / TP + FN) = 실제 True 중 얼마나 맞추었는지
  • F1 Score (F1 점수) : 정밀도와 재현율의 가중 평균. 두 지표 모두 고려하여 모델 성능 평가

 

  • 의료데이터에서는 Recall이 조금 더 중요한 지표로 활용
    • 실제 병에 걸린 사람들 중 제대로 진단한 결과
    • 단, Recall을 과하게 집중하게 되면 Precision이 떨어질 수 있다

 

http://bit.ly/3Y34pE0

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.