판다스
-
[DSSchool_Level6] Kaggle - Bike Sharing Demand2Data Science 2019. 11. 10. 00:45
컬럼별로 판다스, 시각화를 통하여 데이터 분석을 하여 머신런닝 예측 모델 개선 아이디어를 도출해 본다. 그리고 도출한 인사이트를 활용하여 머신런닝 알고리즘에 적용해, Kaggle 에 제출하여 점수를 확인한다. "자전거 대여량 예측하기" 데이터 분석 순서 read csv 로 데이터 읽어오기 전체 데이터가 어떻게 구성되어 있는지 확인(데이터 수, 데이터 타입...) 전처리 데이터 분석 - 분석전 결과 예상/ 시각화, 판다스로 분석 / 인사이트 도출 Decision Tree 를 사용하여 학습(fit), 예측(predict) sampleSubmission.csv 에 예측값 넣기 Kaggle 제출 Classification & Regression 데이터를 받았을때 가장먼저 판단해야 할 것은, 풀어야 할 문제가 C..
-
[DSSchool_Level5] Kaggle - Bike Sharing DemandData Science 2019. 11. 6. 17:19
타이타닉 경진대회에서 적용한 방법으로, 이번에는 Bike Sharing 경진대회에 참가한다. Bike Sharing 은 데이터 수가 타이타닉보다 더 많아, 데이터 분석에 더 적합한 경진대회이다. 자전거를 빌릴때 관여를 하는 요인(컬럼)을 분석하고 예측하는 것이 목표이다. https://www.kaggle.com/c/bike-sharing-demand Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com 데이터를 다룰때 Tip 1. 충분한 데이터 분석 데이터를 머신런닝에 넣기전에, 엑셀분석과 데이터 시각화를 통해 완전히 데이터를 이해해야 한다. 머신런닝에 의존하게 되면, 점수가 안좋아졌을때 그 이유를 정확히 파악할 수 없기 때..
-
[DSSchool_Level4] 판다스, 데이터 시각화를 통한 타이타닉 데이터 분석Data Science 2019. 10. 31. 12:02
데이터 분석 순서 train, test 데이터 read seaborn 으로 컬럼별 분석. 시각데이터로 확인 후 => loc, pivot_table 등으로 상세 데이터 명확히 확인 분석결과를 바탕으로 전처리(Preprocessing): 데이터를 알고리즘이 이해할수 있는 형태로 변환(ex. 문자열->Int). train에 컬럼추가시 test 도 같이 변경해야 함 Decision Tree 학습(fit) - train 데이터 시각화하여 학습이 잘되었는지 확인(graphviz 사용) Decision Tree 예측(predict) - test 데이터 gender_submission.csv 에 예측결과 데이터를 넣기 케글에 제출 Graphviz Decision Tree를 시각화 할 수 있는 툴 mac 설치 : bre..
-
[DSSchool_Level3] 판다스 실습Data Science 2019. 10. 30. 18:07
Pandas 데이터 분석을 위한 라이브러리 https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html 10 minutes to pandas — pandas 0.25.2 documentation 10 minutes to pandas This is a short introduction to pandas, geared mainly for new users. You can see more complex recipes in the Cookbook. Customarily, we import as follows: In [1]: import numpy as np In [2]: import pandas as pd Object creation See t..