[DSSchool_Level6] Kaggle - Bike Sharing Demand2

Data Science

고양이의시간 2019. 11. 10. 00:45

컬럼별로 판다스, 시각화를 통하여 데이터 분석을 하여 머신런닝 예측 모델 개선 아이디어를 도출해 본다.

그리고 도출한 인사이트를 활용하여 머신런닝 알고리즘에 적용해, Kaggle 에 제출하여 점수를 확인한다.

데이터를 받았을때 가장먼저 판단해야 할 것은, 풀어야 할 문제가 Classification 인지, Regression 인지 파악하는 것이 중요하다.

Classification

* 맞춰야 하는 정답(Label)이 특정 분류중 하나

예) 0 or 1 / 어떤승객이 살았냐 죽었냐(타이타닉)

* Categorical(같냐 다르냐가 중요)

* DecisionTreeClassifier 사용

from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()

Regression

* 맞춰야 하는 정답(Label)이 높고 낮음의 숫자

예) 주가예측 / 자전거 대여량이 높냐낮냐

* Continuous (연속적. 값이 높냐낮냐가 중요)

* DicisionTreeRegressor 사용

from sklearn.tree import DecisionTreeRegressor

model = DecisionTreeRegressor()

복원추출로 랜덤하게 데이터를 샘플링해서 여러개의 트리를 만들어 섞어쓰는 것.

(중복을 허용하면서 샘플링하므로, 트리생성을 무제한으로 만들 수 있다)

from sklearn.ensemble import RandomForestRegressor
# random_state: 랜덤한 결과가 안나오도록 고정
model = RandomForestRegressor(random_state=37)

좋은 조건

수치가 크게 벌어지는 조건

예) 타이타닉을 기준으로, 생존10 : 사망90 (성별컬럼 같은)

나쁜 조건

수치가 벌어지지 않는 조건

예) 생존50:사망50