실전#2 데이터로 살펴보는 우리 아이 학습 성공/실패 요소(4)
데이터 전처리 과정편 살펴본 데이터들 중 전처리가 필요한 데이터들에 대한 작업 과정이다. 코드만 보면 무척 간단해보이는 과정이기는 하지만, 전처리 과정은 EDA만큼 중요한 부분이라 생각한다. X = pd.get_dummies(df.drop(['ParentschoolSatisfaction','Class','Class_value'], axis = 1), columns = ['gender', 'NationalITy', 'PlaceofBirth', 'StageID', 'GradeID', 'SectionID', 'Topic', 'Semester', 'Relation', 'ParentAnsweringSurvey', 'StudentAbsenceDays'], drop_first = True) y = df['Class'..
실전#2 데이터로 살펴보는 우리 아이 학습 성공/실패 요소(3)
EDA 2번째 과정 앞서 살펴본 EDA 과정이 수치형 데이터에 대한 탐색이었다면 이번에는 범주형 데이터에 대한 탐색을 주로 다루게 된다. 범주형 데이터를 시각화로 파악하기 위해 주로 사용한 방법은 Countplot이다. sns.countplot(x='Class', data = df, order = ['L', 'M', 'H']) 이렇게 기본적인 countplot으로 원하는 기준별 분포를 알 수 있다. 여기에 추가로 hue 기능을 활용하여 각 변수별 Class의 비교가 가능하다 # 성별 비교 sns.countplot(x='gender', data = df, hue = 'Class', hue_order = ['L', 'M', 'H']) # 국적 비교 sns.countplot(x='NationalITy', da..