본문 바로가기

분류 전체보기

(86)
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(4) Classification 모델 학습하기 강의에서는 2가지 모델을 활용하였다. 우선 첫번째로 사용한 Logistic Regression부터 정리해보자 from sklearn.linear_model import LogisticRegression # LogisticRegression 모델 생성/학습 model_lr = LogisticRegression() model_lr.fit(X_train, y_train) # 모델 평가 from sklearn.metrics import classification_report # Predict를 수행하고 classification_report() 결과 출력하기 pred = model_lr.predict(X_test) print(classification_report(y_t..
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(3) EDA 이후 모델 학습을 위한 데이터 전처리 과정 (실제로는 EDA가 저렇게 스르륵 끝나지는 않지만, 아무래도 강의에서는 정돈된 데이터로 설명해야 전달하고자 하는 내용을 명확히 전달할 수 있다보니 간단히 끝났다.) 여튼 EDA를 잘 진행했다고 보고, 이후 과정으로 들어가면 간단하면서도 중요한 작업이 스케일링 작업이다. 우선 코드부터 정리해보자 from sklearn.preprocessing import StandardScaler # 수치형 입력 데이터, 범주형 입력 데이터, 출력 데이터로 구분하기 X_num = df[['age', 'creatinine_phosphokinase', 'ejection_fraction', 'platelets', 'serum_creatinine', 'serum_sodium']]..
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(2) 데이터를 확보했으니, 다음 단계는 EDA 과정이다. 우선 데이터 확보 후 기본적으로 진행하는 절차들은 아래 3가지 코드가 될 것 같다 # 데이터 기본 확인 df.head() # 각 컬럼별 null 존재, 타입, 전체 count df.info() # 각 컬럼별 기초 통계정보 (count, mean, std, min, 25%, 50%, 75%, max) df.describe() 1) df.head() 를 통해 : 기본적인 데이터의 형태를 알 수 있다. 특정 컬럼에 어떤 값들이 들어와있는지 등 2) df.info() 를 통해 : 컬럼별 정보를 확인하면서 null(결측치)가 존재하지는 않는지, 컬럼을 정의한 Type은 무엇인지 등을 알 수 있다. 3) df.describe() 를 통해 : 컬럼별 기본적인 통계 ..
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(1) 실전 투입 첫번째는 의료 데이터이다. 관련 Kaggle 링크 https://www.kaggle.com/datasets/andrewmvd/heart-failure-clinical-data Heart Failure Prediction 12 clinical features por predicting death events. www.kaggle.com 데이터 소개 - 이번 주제는 Heart Failure Prediction 데이터셋을 사용합니다. - 다음 1개의 csv 파일을 사용합니다. heart_failure_clinical_records_dataset.csv - 각 파일의 컬럼은 아래와 같습니다. age: 환자의 나이 anaemia: 환자의 빈혈증 여부 (0: 정상, 1: 빈혈) creatinine_pho..
데이터 분석에 대한 일반적인 정리 실전에 앞서 3번째Intro 이미 익숙한 내용들도 있기는 하지만, 기회가 기회인만큼 이참에 정리를 한번 하고 넘어가는게 좋을 것 같아 빠르게 정리를 해보았다. 시작에 앞서 인증샷 짠! 데이터 분석의 일반적인 순서 1. Data Processing 2. Exploratory Data Analysis(EDA) 3. Feature Engineering 4. Machine Learning Data Processing 데이터 가져오는 과정 Kaggle, CSV, SQL 등 다양한 방법을 통해 데이터 확보 Pandas를 통해 수집한 데이터를 확인하는 과정까지 포함 마트성 데이터가 있다면 이후 과정이 수월할 수 있겠지만, Raw 데이터를 가져오는 상황이라면 이후 EDA, Feature Engineering 과정을 반..
기본 라이브러리 정리_2 어제에 이어 라이브정리를 계속해보자 scikit-learn 머신러닝 분석 시 기본적으로 설치하는 라이브러리 중 하나 다양한 머신러닝 기법 활용에서 유용 머신러닝 모델을 구축하고 테스트하기 위한 세부 기능들을 가져올 수 있다 데이터셋 분리(train, test) 회귀, 분류, 클러스터링, 차원축소 등의 알고리즘 적용 기본 전처리 (MinMaxScaling) ## 다양한 예시 ## StandardScaler 를 통한 전처리 from sklearn.preprocessing import StandardScaler ## 학습데이터와 테스트데이터 분리 from sklearn.model_selection import train_test_split ## Logistic Regression 모델 활용 from sklea..