이번 EDA 의 주된 목적은 변수들간의 상관성을 찾는 것이다.
그럼 바로 Pearson`s correlation 시각화를 통해 데이터 변수들 간의 관계를 살펴보자
# DataFrame의 corr() 메소드와 Seaborn의 heatmap() 메소드를 이용하여 Pearson's correlation 시각화하기
plt.figure(figsize = (12,12))
sns.heatmap(df.corr())
이 중 주 목적이 되는 변수 Pres_DEM과 Pres_REP에 대해서만 따로 살펴보도록 하자
plt.figure(figsize = (5,12))
sns.heatmap(df.corr()[['Pres_DEM', 'Pres_REP']], annot = True)
결과를 보면서 해석해나가다 보니, 데이터의 수준이 이상함을 느낄 수 있다.
Pres_DEM에 대한 Pres_DEM과 Pres_REP의 Correlation을 보면 1과 0.88로 나오는데,
2개의 값이 서로 대응되는 변수이기에 저런 결과가 납득되지 않는다.
이유를 살펴보기 위해서는 df 테이블에 대한 이해가 필요하다
df 테이블에서 Pres_DEM ~ Gov_REP 까지의 변수들은 모두 실제 투표수 값을 사용중이다. (즉 누적 수치)
때문에 인구가 높은 지역이라면 해당 변수들간의 상관성이 높게 나타나게 된 것이고,
이를 해결하기 위해서는 수치 자체도 비율로 바꿔줄 필요가 있다.
# df 테이블 복사
df_norm = df.copy()
# 각 변수들을 비율 변수로 변환
df_norm['Pres_DEM'] /= df['Pres_DEM'] + df['Pres_REP']
df_norm['Pres_REP'] /= df['Pres_DEM'] + df['Pres_REP']
df_norm['Gov_DEM'] /= df['Gov_DEM'] + df['Gov_REP']
df_norm['Gov_REP'] /= df['Gov_DEM'] + df['Gov_REP']
이후 다시 correlation을 확인해보면, 이전과 달라진 모습을 확인할 수 있다.
위 그래프를 통해 각 변수들간 상관관계가 높은 변수들을 빠르게 확인 가능하다.
더욱 자세히 살펴보기 위해 연관성이 높은 변수들을 Jointplot을 통해 추가로 살펴보자
# Pres_REP에 대해 White 변수와의 연관성 자세히 살펴보기
sns.jointplot(x='White', y='Pres_REP', data = df_norm, alpha = 0.2)
alpha = 0.2 버전 | kind = 'hex' 버전 | hue = 'Professional' 추가 |
![]() |
![]() |
![]() |
jointplot 시각화 과정에서 다양한 옵션을 통해 데이터를 확인 가능하다.
3가지 그래프를 통해 확인할 수 있는 내용들은
- 백인 비율이 높을수록 Pres_REP 투표 비율도 높아진다.
- 단, County별로 백인 비율이 상이하기 때문에 다른 변수의 영향도 고려가 필요하다.
- hue 옵션을 통해 전문직 유무에 따른 분포 변화를 확인해보니, 전문직 직군이라면 Pres_REP의 비율이 떨어지는 것을 알 수 있다.
- 즉, 백인 비율이 높은 County라도 전문직 직군이라면 Pres_REP의 투표 비율은 다른 결과가 나타날 수 있다고 볼 수 있다.
비슷한 예시로 Pres_DEM에 대한 Black 결과를 살펴보자
![]() |
![]() |
비슷하게 흑인 비율이 높을 수록 Pres_DEM 투표 비율이 올라가는 것이 보이긴하나,
위의 예시보다 더욱 County별 흑인 비율이 큰 차이가 없다는 것이 확인되고,
Professional까지 결합하여 살펴보면 단순 백인/흑인보다는 다른 변수들과의 연결을 통한 투표 선호도를 알 수 있다고 볼 수 있겠다.
이런식으로 데이터를 하나씩 뜯어가보면서 변수에 대한 이해와 결과와의 연결성을 알아가는 과정이었다.
http://bit.ly/3Y34pE0
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'Analytics > Study' 카테고리의 다른 글
실전#5 미국의 대통령은 어떻게 뽑힐까(6) (0) | 2023.03.20 |
---|---|
실전#5 미국의 대통령은 어떻게 뽑힐까(5) (0) | 2023.03.19 |
실전#5 미국의 대통령은 어떻게 뽑힐까(3) (0) | 2023.03.17 |
실전#5 미국의 대통령은 어떻게 뽑힐까(2) (0) | 2023.03.16 |
실전#5 미국의 대통령은 어떻게 뽑힐까(1) (0) | 2023.03.15 |