-
[DSSchool_Level5] Kaggle - Bike Sharing DemandData Science 2019. 11. 6. 17:19
타이타닉 경진대회에서 적용한 방법으로, 이번에는 Bike Sharing 경진대회에 참가한다.
Bike Sharing 은 데이터 수가 타이타닉보다 더 많아, 데이터 분석에 더 적합한 경진대회이다.
자전거를 빌릴때 관여를 하는 요인(컬럼)을 분석하고 예측하는 것이 목표이다.
https://www.kaggle.com/c/bike-sharing-demand
Bike Sharing Demand
Forecast use of a city bikeshare system
www.kaggle.com
데이터를 다룰때 Tip
1. 충분한 데이터 분석
데이터를 머신런닝에 넣기전에, 엑셀분석과 데이터 시각화를 통해 완전히 데이터를 이해해야 한다.
머신런닝에 의존하게 되면, 점수가 안좋아졌을때 그 이유를 정확히 파악할 수 없기 때문이다.
2. 벤치마킹
창의적인 아이디어보다, 유사솔루션과 검색과 커널 등을 참고해 벤치마킹해 적용하는 것이 좋다.
3. 많이 분석하기
케글 경진대회에 많이 참여하여, 다양한 데이터를 분석할수록 실력이 향상된다
탐험적 데이터 분석
머신런닝 알고리즘이 아무리 뛰어나더라도, 데이터의 패턴을 스스로 못찾을 수 있다.
이를 보완하기 위해 탐험적 분석을 적용한다.
즉, 머신런닝 알고리즘이 스스로 이해하지 못하는 데이터의 특징을 사람이 발견해서 Feature화 해서 넣거나,
빼거나, Feature 를 수정하는 것이다.
해당 데이터 분석에 전문적 지식을 가지고 있다면, 탐험적 데이터 분석을 유리하게 활용 가능하며,
데이터 분석을 늦게 시작했더라도 경쟁력을 가질 수 있다.
'Data Science' 카테고리의 다른 글
[DSSchool_Level6] Kaggle - Bike Sharing Demand2 (0) 2019.11.10 [DSSchool_Level4] 판다스, 데이터 시각화를 통한 타이타닉 데이터 분석 (0) 2019.10.31 [DSSchool_Level3] 판다스 실습 (0) 2019.10.30 [DSSchool_Level2] 파이썬 기초 (0) 2019.10.25 [DSSchool_Level1] Kaggle 타이타닉 생존자 분석 (0) 2019.10.22