어제에 이어 라이브정리를 계속해보자
scikit-learn
- 머신러닝 분석 시 기본적으로 설치하는 라이브러리 중 하나
- 다양한 머신러닝 기법 활용에서 유용
- 머신러닝 모델을 구축하고 테스트하기 위한 세부 기능들을 가져올 수 있다
- 데이터셋 분리(train, test)
- 회귀, 분류, 클러스터링, 차원축소 등의 알고리즘 적용
- 기본 전처리 (MinMaxScaling)
## 다양한 예시
## StandardScaler 를 통한 전처리
from sklearn.preprocessing import StandardScaler
## 학습데이터와 테스트데이터 분리
from sklearn.model_selection import train_test_split
## Logistic Regression 모델 활용
from sklearn.linear_model import LogisticRegression
## 모델 학습 결과 평가
from sklearn.metrics import classification_report
## Precision-Recall 커브 확인
from sklearn.metrics import plot_precision_recall_curve
## ROC 커브 확인
from sklearn.metrics import plot_roc_curve
seaborn
- 데이터 시각화 목적 라이브러리 (Matplotlib 라이브러리를 기반)
- 다양한 옵션 및 설명이 있지만, 실제 예제를 통해 하나씩 정리하는게 좋을 것 같아서 기본적인 예제만 첨부
- https://seaborn.pydata.org/
tensorflow
- 오픈소스 머신러닝 라이브러리 (Google 개발)
- 데이터 플로우 그래프(data flow graph)를 사용하여 연산을 수행 -> 병렬처리와 분산처리가 가능
- 실제로 활용해본 적이 많지 않아 앞으로 활용해보면서 더 정리를 해봐야겠다
theano
- 머신러닝 및 딥러닝 모델 구현을 위한 라이브러리
- 역시 최적화된 처리 및 지원을 통해 쾌적한 계산 속도와 우수한 성능을 보이는게 장점
- 대표 활용 예: 순환신경망(RNN) 모델 구현 등
torch
- 오픈소스 머신러닝 라이브러리 (이런 라이브러리 종류가 참 많은듯)
- 대표 활용 예: torch.nn 모듈을 이용한 다층 퍼셉트론(MLP) 모델 구현, torch.optim 모듈을 이용한 최적화 알고리즘 구현 등등
xgboost
- 생소한 라이브러리들이 나오다가 그나마 익숙한 라이브러리가 나왔다
- 트리 기반 앙상블 학습 방법에 활용
- 기존 GBM(Gradient Boosting Machine) 알고리즘을 개선하여 개발된 라이브러리
- ligthgbm과 더불어 대용량 데이터셋에서 빠른 학습이 장점이고 예측 성능도 우수
import xgboost as xgb
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
- 위 코드처럼 xgboost 라이브러리를 불러와서 sklearn과 함께 모델 구현을 할 수 있음
- 학습 결과 평가와 함께 feature_importance를 통한 변수별 중요도도 자주 사용
yellowbrick
- 시각화를 사용하여 머신러닝 모델 탐색 및 디버깅에 도움이 되는 라이브러리
- ROC, AUC 시각화도 제공
어제와 오늘 이틀 동안 라이브러리 정리들 중 머신러닝 관련 라이브버리 list는 8개 정도 되는것 같다
이 중 익숙한게 3개(scikit-learn, xgboost, lightgbm)
+@ 현재 GoogleColab에 세팅된 pip list 버전 정보 (!pip list 로 조회할 수 있다)
http://bit.ly/3Y34pE0
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'Analytics > Study' 카테고리의 다른 글
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(3) (0) | 2023.02.25 |
---|---|
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(2) (0) | 2023.02.24 |
실전#1. 데이터 분석으로 심부전증을 예방할 수 있을까(1) (0) | 2023.02.23 |
데이터 분석에 대한 일반적인 정리 (0) | 2023.02.22 |
파이썬머신러닝300제 강의 시작! (기본 라이브러리 정리_1) (0) | 2023.02.20 |