실전 투입 첫번째는 의료 데이터이다.
관련 Kaggle 링크
https://www.kaggle.com/datasets/andrewmvd/heart-failure-clinical-data
Heart Failure Prediction
12 clinical features por predicting death events.
www.kaggle.com
데이터 소개
- 이번 주제는 Heart Failure Prediction 데이터셋을 사용합니다.
- 다음 1개의 csv 파일을 사용합니다.
heart_failure_clinical_records_dataset.csv
- 각 파일의 컬럼은 아래와 같습니다.
age: 환자의 나이
anaemia: 환자의 빈혈증 여부 (0: 정상, 1: 빈혈)
creatinine_phosphokinase: 크레아틴키나제 검사 결과
diabetes: 당뇨병 여부 (0: 정상, 1: 당뇨)
ejection_fraction: 박출계수 (%)
high_blood_pressure: 고혈압 여부 (0: 정상, 1: 고혈압)
platelets: 혈소판 수 (kiloplatelets/mL)
serum_creatinine: 혈중 크레아틴 레벨 (mg/dL)
serum_sodium: 혈중 나트륨 레벨 (mEq/L)
sex: 성별 (0: 여성, 1: 남성)
smoking: 흡연 여부 (0: 비흡연, 1: 흡연)
time: 관찰 기간 (일)
DEATH_EVENT: 사망 여부 (0: 생존, 1: 사망)
기본적인 데이터 분포 정보는 Kaggle에서도 제공한다.
![](https://blog.kakaocdn.net/dn/bboixU/btr0nVekBBe/VbXAXOc8mEZ2ZbKYENkT91/img.jpg)
Accuracy, Precision, Recall
- Confusion Matrix
- True Positive(TP) : 실제 True 인 데이터를 True로 예측한 경우 (O)
- Flase Positive(FP): 실제 False인 데이터를 True로 예측한 경우 (X)
- True Negative(TN): 실제 Flase 인 데이터를 False로 예측한 경우 (O)
- Flase Negative(FN): 실제 True인 데이터를 False로 예측한 경우 (X)
이를 활용한 지표들
- Accuray (정확도) : 전체 데이터 중 올바르게 예측한 수의 비율 ( TP + TN / 전체)
- Precision (정밀도) : Ture로 예측한 데이터 중에 실제 True인 수의 비율 ( TP / TP + FP) = 예측했을 때 옳게 예측한 확률
- Recall (재현율) : 실제 True인 데이터 중 True 로 예측한 수의 비율 (TP / TP + FN) = 실제 True 중 얼마나 맞추었는지
- F1 Score (F1 점수) : 정밀도와 재현율의 가중 평균. 두 지표 모두 고려하여 모델 성능 평가
![](https://blog.kakaocdn.net/dn/czwJDw/btr0p7x3t9U/LSXzk0rD62gLHX8InNpShK/img.jpg)
- 의료데이터에서는 Recall이 조금 더 중요한 지표로 활용
- 실제 병에 걸린 사람들 중 제대로 진단한 결과
- 단, Recall을 과하게 집중하게 되면 Precision이 떨어질 수 있다
http://bit.ly/3Y34pE0
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'Analytics > Study' 카테고리의 다른 글
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(3) (0) | 2023.02.25 |
---|---|
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(2) (0) | 2023.02.24 |
데이터 분석에 대한 일반적인 정리 (0) | 2023.02.22 |
기본 라이브러리 정리_2 (0) | 2023.02.21 |
파이썬머신러닝300제 강의 시작! (기본 라이브러리 정리_1) (0) | 2023.02.20 |