이번 강의는 굉장히 흥미로운 주제였다.
개인적으로 실제 게임 하는걸 좋아하지 않지만, 그래도 보는것 자체는 몇차례 보았어서
다행히 엄청 낯설지는 않게 데이터 구조를 이해할 수 있었다.
(+@로 강사님의 예상 외의 친절한 설명으로 새로 알게되는 내용들도 있었다ㅎㅎ)
무튼 데이터의 특징은 다이아몬드 티어 기준이고
(여담이지만 분석 결과 평가 시 롤에 대한 이해가 높은 사람이라면 티어 기준도 중요하게 보는 요인이 될 수 있겠다)
게임 시작 후 10분까지의 정보들을 기준으로 데이터화 되어있으며,
(항복이 10분 이후부터 가능하다보니 기준을 10분으로 잡은 것으로 이해하면 된다.)
변수들은 gameId별로 총 39개로 채워져있다.
위 info()를 참고하여 살펴보면 데이터 구조의 특징이 몇 개 보이는데
가장 대표적인 특징은 blue / red 개념으로 동일한 데이터가 쌍으로 존재한다는 것이다.
데이터를 이해하기 위해서는 도메인에 대한 이해가 반드시 필요하다는 의미를 여기서 한번 더 강조할 수 있을 것 같은데
롤이라는 게임은 blue와 red 팀 간의 대결로 진행되기 때문에
데이터들 역시 각 팀별로 존재할 수 밖에 없다.
물론 이 중 각 팀별 대칭되는 데이터가 있을 수 있고, 의미는 대칭이나 실제 값은 그렇지 않는 경우도 있다.
만약, 롤에 대해 잘 알고 컬럼별 이해가 높다면 직관적으로 데이터들을 어떻게 처리하면 좋을지 알 수 있겠지만
그렇지 않은 경우에는 EDA 과정에서 조금 더 세심히 데이터를 살펴보면서 도메인 이해를 병행할 필요가 있어 보인다.
우선 데이터들 중 binary값을 가진 컬럼을 살펴보자
# binary 데이터인 컬럼 list 보기
[[col, len(df[col].unique()), df[col].dtype] for col in df.columns if len(df[col].unique()) == 2]
이 때 주어지는 변수 list는 아래와 같다.
[['blueWins', 2, dtype('int64')], ['blueFirstBlood', 2, dtype('int64')], ['blueDragons', 2, dtype('int64')], ['blueHeralds', 2, dtype('int64')], ['redFirstBlood', 2, dtype('int64')], ['redDragons', 2, dtype('int64')], ['redHeralds', 2, dtype('int64')]]
추가로 아래 Correlation도 살펴보자
보고자하는 기준은 blueWins 이기에, 해당 기준에 맞춰 corr()을 heatmap으로 그려보자
fig = plt.figure(figsize = (4, 10))
sns.heatmap(df.corr()[['blueWins']], annot = True)
Kill관련 변수와 Gold 관련 변수(GoldDiff, GoldPerMin)이 상대적으로 중요한 변수임을 알 수 있다.
또한 변수들 간 상관성을 통해 의미있는 변수와 제거가 필요한 변수들을 확인해보는 과정이 필요하다.
수치형 데이터의 경우에는 아래 jointplot을 통해 살펴보았고, 대표적으로 blueExperienceDiff와 blueGoldDiff의 상관성이 높음을 알 수 있었다.
범주형 데이터의 경우에는 countplot을 통해 살펴볼 수 있는데, blue와 red 간의 데이터 차이를 통해 변수들의 특징을 가늠할 수 있다.
강의에서는 특정 컬럼만 살펴봐 아쉬웠는데
이 부분은 별도로 체크한 내용을 기반으로 이후 분석을 진행해야 될 필요가 있을 것 같다.
(하나씩 따로따로 보는게 불편한 감이 있어 한번에 뽑는것도 같이 준비하면 좋을 것 같았다.)
http://bit.ly/3Y34pE0
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'Analytics > Study' 카테고리의 다른 글
실전#3 데이터로 알아보는 리그 오브 레전드의 승리 공식(3) (1) | 2023.03.07 |
---|---|
실전#3 데이터로 알아보는 리그 오브 레전드의 승리 공식(2) (1) | 2023.03.06 |
실전#2 데이터로 살펴보는 우리 아이 학습 성공/실패 요소(5) (0) | 2023.03.04 |
실전#2 데이터로 살펴보는 우리 아이 학습 성공/실패 요소(4) (0) | 2023.03.03 |
실전#2 데이터로 살펴보는 우리 아이 학습 성공/실패 요소(3) (0) | 2023.03.02 |