본문 바로가기

Analytics

(30)
실전#5 미국의 대통령은 어떻게 뽑힐까(7) 드디어 마지막 강의! 모델 학습 및 결과를 해석해보자 이전까지는 로지스틱회귀모델과 XGBoost 모델만을 다루었는데 이번 강의에서는 lightgbm 패키지에 있는 LGBMRegressor을 활용하였다. 본 내용에 들어가기 전에 LGBMRegressor에 대해 조금 더 알아보도록 하자 LGBMRegressor는 LightGBM 라이브러리에서 제공하는 회귀 분석용 클래스로, Gradient Boosting Decision Tree 알고리즘을 기반으로 한 트리 기반의 앙상블 학습 방법 중 하나이다. LGBMRegressor는 데이터셋을 학습시켜 트리 기반 모델을 생성하고, 예측값을 출력하는데 이 때, 예측값은 입력된 데이터의 속성(feature)들을 기반으로 하여 계산된다. LGBMRegressor 클래스에서..
실전#5 미국의 대통령은 어떻게 뽑힐까(6) 이번에는 전처리 과정으로 넘어가보자 앞에서 다양한 형태의 EDA와 데이터프레임 통합 과정을 거친 덕분에 전처리는 상대적으로 수월하게 진행 가능해졌다. 다루게 될 df_norm 데이터 형태부터 살펴보자 여기에서 결과에 해당되는 Pres_DEM, Pres_REP, Gov_DEM, Gov_REP는 입력에서 제외하고, 값이 NaN인 데이터들도 drop처리를 해주도록 하자 df_norm.dropna(inplace = True) X = df_norm.drop(['Pres_DEM', 'Pres_REP', 'Gov_DEM', 'Gov_REP'], axis = 1) y = df_norm['Pres_DEM'] 위 컬럼에서 보듯, 해당되는 모든 변수들이 수치형 데이터이기 때문에 표준화처리도 추가작업 없이 진행해주면 된다. ..
실전#5 미국의 대통령은 어떻게 뽑힐까(5) 이번 EDA는 Plotly에 대한 내용이다. 직관적인 이번 시간의 목표는 Pres_DEM에 대한 County별 현황을 아래와 같은 Geo정보를 활용한 Map 형태로 나타내는 것이다. 우선 위 예시는 plotly 관련 정보가 정리되어있는 https://plotly.com/python/county-choropleth/#the-entire-usa Usa Detailed examples of USA County Choropleth Maps including changing color, size, log axes, and more in Python. plotly.com 에서 참고한 예시이다. 관련 코드는 아래와 같고, plotly 중 figure_factory를 활용하였다. import plotly.figure_..
실전#5 미국의 대통령은 어떻게 뽑힐까(4) 이번 EDA 의 주된 목적은 변수들간의 상관성을 찾는 것이다. 그럼 바로 Pearson`s correlation 시각화를 통해 데이터 변수들 간의 관계를 살펴보자 # DataFrame의 corr() 메소드와 Seaborn의 heatmap() 메소드를 이용하여 Pearson's correlation 시각화하기 plt.figure(figsize = (12,12)) sns.heatmap(df.corr()) 이 중 주 목적이 되는 변수 Pres_DEM과 Pres_REP에 대해서만 따로 살펴보도록 하자 plt.figure(figsize = (5,12)) sns.heatmap(df.corr()[['Pres_DEM', 'Pres_REP']], annot = True) 결과를 보면서 해석해나가다 보니, 데이터의 수준이..
실전#5 미국의 대통령은 어떻게 뽑힐까(3) EDA 시작! 오늘의 주제는 County별 통계로 데이터프레임 구조 변경 및 통합하기 이다. 테이블 단위로 작업 과정을 하나씩 따라가보자 df_pres # Step1. 데이터 형태 확인 df_pres.head() # Step2. 공화당(DEM), 민주당(REP)만 남길 수 있도록 lambda 적용 확인 과정 df_pres['party'].apply(lambda s: str(s) in ['DEM','REP']) # Step3. Step2를 실제 data로 적용한 뒤, pivot_table을 활용하여 데이터프레임 구조 변경 data = df_pres.loc[df_pres['party'].apply(lambda s: str(s) in ['DEM','REP'])] table_pres = pd.pivot_tabl..
실전#5 미국의 대통령은 어떻게 뽑힐까(2) 테이블들을 하나씩 살펴보기에 앞서 각 컬럼들의 설명을 이해하기 위해서는 미국 대통령 선거제도에 대해 알아볼 필요가 있어보인다. 아래 검색으로 찾은 미국 대통령 선거에 대한 설명을 참고하자. 미국의 대통령 선거제도는 간단하면서도 독특한 방식으로 진행됩니다. 대통령은 선거인단에 의해 선출되며, 각 주마다 지정된 선거인수에 따라 선거인단의 총원이 결정됩니다. 선거인단은 대통령과 부통령을 각각 지정하는 역할을 합니다. 미국 대통령 선거는 간접선거제로 진행됩니다. 즉, 선거인단이 대통령을 직접 선출하는 것이 아니라, 각 주에서 열리는 대통령 선거에서 이긴 후보에 따라 해당 주의 선거인단이 선출됩니다. 선거인단의 총원은 538명이며, 대다수를 차지하는 270명의 선거인단 지지를 얻은 후보가 대통령에 당선됩니다. 대..