본문 바로가기

Analytics/Study

(30)
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(3) EDA 이후 모델 학습을 위한 데이터 전처리 과정 (실제로는 EDA가 저렇게 스르륵 끝나지는 않지만, 아무래도 강의에서는 정돈된 데이터로 설명해야 전달하고자 하는 내용을 명확히 전달할 수 있다보니 간단히 끝났다.) 여튼 EDA를 잘 진행했다고 보고, 이후 과정으로 들어가면 간단하면서도 중요한 작업이 스케일링 작업이다. 우선 코드부터 정리해보자 from sklearn.preprocessing import StandardScaler # 수치형 입력 데이터, 범주형 입력 데이터, 출력 데이터로 구분하기 X_num = df[['age', 'creatinine_phosphokinase', 'ejection_fraction', 'platelets', 'serum_creatinine', 'serum_sodium']]..
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(2) 데이터를 확보했으니, 다음 단계는 EDA 과정이다. 우선 데이터 확보 후 기본적으로 진행하는 절차들은 아래 3가지 코드가 될 것 같다 # 데이터 기본 확인 df.head() # 각 컬럼별 null 존재, 타입, 전체 count df.info() # 각 컬럼별 기초 통계정보 (count, mean, std, min, 25%, 50%, 75%, max) df.describe() 1) df.head() 를 통해 : 기본적인 데이터의 형태를 알 수 있다. 특정 컬럼에 어떤 값들이 들어와있는지 등 2) df.info() 를 통해 : 컬럼별 정보를 확인하면서 null(결측치)가 존재하지는 않는지, 컬럼을 정의한 Type은 무엇인지 등을 알 수 있다. 3) df.describe() 를 통해 : 컬럼별 기본적인 통계 ..
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(1) 실전 투입 첫번째는 의료 데이터이다. 관련 Kaggle 링크 https://www.kaggle.com/datasets/andrewmvd/heart-failure-clinical-data Heart Failure Prediction 12 clinical features por predicting death events. www.kaggle.com 데이터 소개 - 이번 주제는 Heart Failure Prediction 데이터셋을 사용합니다. - 다음 1개의 csv 파일을 사용합니다. heart_failure_clinical_records_dataset.csv - 각 파일의 컬럼은 아래와 같습니다. age: 환자의 나이 anaemia: 환자의 빈혈증 여부 (0: 정상, 1: 빈혈) creatinine_pho..
데이터 분석에 대한 일반적인 정리 실전에 앞서 3번째Intro 이미 익숙한 내용들도 있기는 하지만, 기회가 기회인만큼 이참에 정리를 한번 하고 넘어가는게 좋을 것 같아 빠르게 정리를 해보았다. 시작에 앞서 인증샷 짠! 데이터 분석의 일반적인 순서 1. Data Processing 2. Exploratory Data Analysis(EDA) 3. Feature Engineering 4. Machine Learning Data Processing 데이터 가져오는 과정 Kaggle, CSV, SQL 등 다양한 방법을 통해 데이터 확보 Pandas를 통해 수집한 데이터를 확인하는 과정까지 포함 마트성 데이터가 있다면 이후 과정이 수월할 수 있겠지만, Raw 데이터를 가져오는 상황이라면 이후 EDA, Feature Engineering 과정을 반..
기본 라이브러리 정리_2 어제에 이어 라이브정리를 계속해보자 scikit-learn 머신러닝 분석 시 기본적으로 설치하는 라이브러리 중 하나 다양한 머신러닝 기법 활용에서 유용 머신러닝 모델을 구축하고 테스트하기 위한 세부 기능들을 가져올 수 있다 데이터셋 분리(train, test) 회귀, 분류, 클러스터링, 차원축소 등의 알고리즘 적용 기본 전처리 (MinMaxScaling) ## 다양한 예시 ## StandardScaler 를 통한 전처리 from sklearn.preprocessing import StandardScaler ## 학습데이터와 테스트데이터 분리 from sklearn.model_selection import train_test_split ## Logistic Regression 모델 활용 from sklea..
파이썬머신러닝300제 강의 시작! (기본 라이브러리 정리_1) 살짝 늦은 새해 맞이 다짐을 위해 새롭게 공부를 시작해보았다. 마침 괜찮아보이는 주제와 좋은 조건(환급!!!)으로 구성된 강좌가 있어 일단 저지르고 보았다. 앞으로 꾸준히 공부하겠다는 다짐으로 시작했는데, 모쪼록 유종의미를 거두었으면 좋겠다. 본격적인 시작에 앞서 기본 라이브러리 설명 부분이 있었는데, 그동안 아는건 아는만큼 모르는건 모르는데로 사용했던 라이브러리들이라서 이참에 정리를 해보았다. 각 라이브러리별 자세한 내용(하이퍼파라미터 세팅, 실제 활용, 모델 고도화 등)은 이후 각 케이스에 따라 업데이트를 해야겠다 fbprophet 시계열 데이터 분석 목적 from fbprophet import Prophet kaggle kaggle 데이터셋 또는 노트 등을 활용할 수있는 라이브러리 (실전 문제 활용..