두번째 실전 과제는 제목부터 흥미로웠다.
"우리 애는 머리는 좋은데, 공부를 안해서 그래요" - 데이터로 살펴보는 우리 아이 학습 성공/실패 요소
관련 Kaggle 링크
https://www.kaggle.com/datasets/aljarah/xAPI-Edu-Data
데이터 소개
- 이번 주제는 xAPI-Edu-Data 데이터셋을 사용합니다.
- 다음 1개의 csv 파일을 사용합니다.
xAPI-Edu-Data.csv
- 각 파일의 컬럼은 아래와 같습니다.
gender: 학생의 성별 (M: 남성, F: 여성)
NationaliTy: 학생의 국적
PlaceofBirth: 학생이 태어난 국가
StageID: 학생이 다니는 학교 (초,중,고)
GradeID: 학생이 속한 성적 등급
SectionID: 학생이 속한 반 이름
Topic: 수강한 과목
Semester: 수강한 학기 (1학기/2학기)
Relation: 주 보호자와 학생의 관계
raisedhands: 학생이 수업 중 손을 든 횟수
VisITedResources: 학생이 과목 공지를 확인한 횟수
Discussion: 학생이 토론 그룹에 참여한 횟수
ParentAnsweringSurvey: 부모가 학교 설문에 참여했는지 여부
ParentschoolSatisfaction: 부모가 학교에 만족했는지 여부
StudentAbscenceDays: 학생의 결석 횟수 (7회 이상/미만)
Class: 학생의 성적 등급 (L: 낮음, M: 보통, H: 높음)
기본적인 데이터 분포 정보는 Kaggle에서도 제공한다(아래 이미지 참고)
이미지 상으로 간략 설명을 해보면
남성 비율이 높고, 국적과 태어난 나라는 KW(Kuwait)와 Jordan이 36 ~ 38% 수준으로 비슷한 정도
(EDA에서 상세히 보도록 하자)
본격 분석에 앞서 강의에서는 연구용 데이터인 만큼 이전 실전 과제였던 의료 데이터와 달리
데이터 소스 및 최종 목표를 참고하여 분석 진행을 할 필요가 있다는걸 강조하였다.
데이터 소스의 경우 2015년에 냈던 저널을 2016년에 업로드한 자료이며
자세한 참고는 아래 링크가 도움이 될 듯 하다
http://www.Ibrahimaljarah.com
연구용 데이터의 주 목적은 논문 작성이 될 것이다.
이 때 논문에 넣기 위한 데이터로서 활용이 될 필요가 있으며
이런 목적을 참고하여 분석 진행이 이어지면 좋을 것이다.
특히, 연구용 데이터에 해당되는 데이터들은 잘 정리된(well-formed) 특징을 갖는다.
또한 연구 목적이기에 최초 생성된 가설이 있을 것이고,
해당 가설 검증 목적으로 설계된 데이터들이 일반적이기 때문에
분석 결과에 대한 해석에 주의를 할 필요가 있다.
이번 실전 과제에서는 분석의 최종 목표를 아래와 같이 설정하였다.
최종 목표
- 연구용 Tabular 데이터의 이해
- 데이터 시각화를 통한 인사이트 습득 방법의 이해
- Scikit-learn 기반의 모델 학습 방법 습득
- Logistic Regression, XGBoost 기반의 모델 학습 방법 습득
- 학습된 모델의 평가 방법 및 시각화 방법 습득
그럼 이제부터 데이터를 살펴보면서 본격적인 분석을 시작해보도록 하자
http://bit.ly/3Y34pE0
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'Analytics > Study' 카테고리의 다른 글
실전#2 데이터로 살펴보는 우리 아이 학습 성공/실패 요소(3) (0) | 2023.03.02 |
---|---|
실전#2 데이터로 살펴보는 우리 아이 학습 성공/실패 요소(2) (0) | 2023.03.01 |
실전#1 에필로그?! (0) | 2023.02.27 |
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(4) (0) | 2023.02.26 |
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(3) (0) | 2023.02.25 |