데이터 분석
-
[DSSchool_Level5] Kaggle - Bike Sharing DemandData Science 2019. 11. 6. 17:19
타이타닉 경진대회에서 적용한 방법으로, 이번에는 Bike Sharing 경진대회에 참가한다. Bike Sharing 은 데이터 수가 타이타닉보다 더 많아, 데이터 분석에 더 적합한 경진대회이다. 자전거를 빌릴때 관여를 하는 요인(컬럼)을 분석하고 예측하는 것이 목표이다. https://www.kaggle.com/c/bike-sharing-demand Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com 데이터를 다룰때 Tip 1. 충분한 데이터 분석 데이터를 머신런닝에 넣기전에, 엑셀분석과 데이터 시각화를 통해 완전히 데이터를 이해해야 한다. 머신런닝에 의존하게 되면, 점수가 안좋아졌을때 그 이유를 정확히 파악할 수 없기 때..
-
[DSSchool_Level4] 판다스, 데이터 시각화를 통한 타이타닉 데이터 분석Data Science 2019. 10. 31. 12:02
데이터 분석 순서 train, test 데이터 read seaborn 으로 컬럼별 분석. 시각데이터로 확인 후 => loc, pivot_table 등으로 상세 데이터 명확히 확인 분석결과를 바탕으로 전처리(Preprocessing): 데이터를 알고리즘이 이해할수 있는 형태로 변환(ex. 문자열->Int). train에 컬럼추가시 test 도 같이 변경해야 함 Decision Tree 학습(fit) - train 데이터 시각화하여 학습이 잘되었는지 확인(graphviz 사용) Decision Tree 예측(predict) - test 데이터 gender_submission.csv 에 예측결과 데이터를 넣기 케글에 제출 Graphviz Decision Tree를 시각화 할 수 있는 툴 mac 설치 : bre..