데이터 셋팅을 완료한 뒤 본격적인 EDA 과정이다.
우선 데이터 형태를 살펴보도록 하자
df.head()
M | KW | KuwaIT | lowerlevel | G-04 | A | IT | F | Father | 15 | 16 | 2 | 20 | Yes | Good | Under-7 | M |
M | KW | KuwaIT | lowerlevel | G-04 | A | IT | F | Father | 20 | 20 | 3 | 25 | Yes | Good | Under-7 | M |
M | KW | KuwaIT | lowerlevel | G-04 | A | IT | F | Father | 10 | 7 | 0 | 30 | No | Bad | Above-7 | L |
M | KW | KuwaIT | lowerlevel | G-04 | A | IT | F | Father | 30 | 25 | 5 | 35 | No | Bad | Above-7 | L |
M | KW | KuwaIT | lowerlevel | G-04 | A | IT | F | Father | 40 | 50 | 12 | 50 | No | Bad | Above-7 | M |
이전 의료데이터와 비교했을 때 큰 차지 중 하나는
문자형 데이터로 이루어진 컬럼들이 많다는 점이다.
성별만 해도 의료데이터에서는 0,1로 구분한 반면
이번에는 M,F로 구분되고 있다.
df.info()
의 결과를 통해
다행히 null이 포함된 컬럼은 없는 것이 확인되었고
수치형 컬럼은 단 4개뿐인 것으로 보인다.
raisedhands, VisITedResources, AnnouncementsView, Discussion
문자형 데이터로 이루어진 컬럼들에 대해 보다 더 자세히 알기 위해서는
각 컬럼을 이루고있는 실제 데이터들의 현황을 알 필요가 있다.
df['gender'].value_counts()
와 같이 데이터를 살펴보면
M 305
F 175
와 같은 결과를 확인할 수 있다.
비슷한 방법으로 NationalITy를 확인해보면 (중간에 낀 대문자가 굉장히 거슬린다ㅡㅡ)
KW 179 Jordan 172 Palestine 28 Iraq 22 lebanon 17 Tunis 12 SaudiArabia 11 Egypt 9 Syria 7 USA 6 Iran 6 Lybia 6 Morocco 4 venzuela 1
의 결과를 알 수 있다.
여기까지 컬럼에 대한 기본적인 확인 과정이고,
이제 시각화를 활용하여 데이터를 좀 더 면밀하게 살펴보도록 하자.
우선은 수치형 데이터에 대한 내용이다.
sns.histplot(x='raisedhands', data = df, hue = 'Class', hue_order= ['L', 'M', 'H'], kde = True)
raisehands(수업 중 손을 든 행위)에 대한 class별 비교 히스토그램으로
class 'L'과 'H' 간 차이가 확인되는 것이 특징이다.
비슷한 과정으로 각 변수별로 살펴봤는데
이번 데이터의 경우 수치형 변수가 4개뿐이라 하나씩 시각화로 그려보며 확인하는 과정이 그렇게 어렵진 않았다.
다만 수치형 변수가 많아지면 많아질수록
각각의 변수별로 데이터를 면밀히 살펴보는 것이 어려워질 것이다.
단순 반복 작업을 간소화하고, 변수와 변수들간의 분포 비교를 통한 상관성 여부를 함께 파악하기 위해 활용할 수 있는 방법은 pairplot이다.
sns.pairplot(df, hue = 'Class', hue_order = ['L','M','H'])
## hue_order - hue 구분 시 정렬 순서 지정
이를 통해 수치형 데이터에 대해 대략적으로 파악 가능한 내용들은
1. 손을 든 행위와 과목 공지를 확인한 횟수 가 많은 학생들과 적은 학생들 간의 클래스 차이가 눈에 띄었다.
2. 토론 참여의 경우 횟수에 따른 class 변화가 크지 않았다.
3. class 중에서도 L과 H를 구분하는 것은 수월한 변수도 있었지만, M과 H의 구분은 그리 간단하게 확인할 수 없었다.
이어지는 나머지 변수들에 대한 EDA를 완료하고 나면
위에서 정리한 3가지 내용들에 대한 부가적인 설명 및 근거가 마련되려나?
내일 이어서 살펴봐야겠다.
http://bit.ly/3Y34pE0
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'Analytics > Study' 카테고리의 다른 글
실전#2 데이터로 살펴보는 우리 아이 학습 성공/실패 요소(4) (0) | 2023.03.03 |
---|---|
실전#2 데이터로 살펴보는 우리 아이 학습 성공/실패 요소(3) (0) | 2023.03.02 |
실전#2 데이터로 살펴보는 우리 아이 학습 성공/실패 요소(1) (0) | 2023.02.28 |
실전#1 에필로그?! (0) | 2023.02.27 |
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(4) (0) | 2023.02.26 |