Data Science
-
[DSSchool_Level6] Kaggle - Bike Sharing Demand2Data Science 2019. 11. 10. 00:45
컬럼별로 판다스, 시각화를 통하여 데이터 분석을 하여 머신런닝 예측 모델 개선 아이디어를 도출해 본다. 그리고 도출한 인사이트를 활용하여 머신런닝 알고리즘에 적용해, Kaggle 에 제출하여 점수를 확인한다. "자전거 대여량 예측하기" 데이터 분석 순서 read csv 로 데이터 읽어오기 전체 데이터가 어떻게 구성되어 있는지 확인(데이터 수, 데이터 타입...) 전처리 데이터 분석 - 분석전 결과 예상/ 시각화, 판다스로 분석 / 인사이트 도출 Decision Tree 를 사용하여 학습(fit), 예측(predict) sampleSubmission.csv 에 예측값 넣기 Kaggle 제출 Classification & Regression 데이터를 받았을때 가장먼저 판단해야 할 것은, 풀어야 할 문제가 C..
-
[DSSchool_Level5] Kaggle - Bike Sharing DemandData Science 2019. 11. 6. 17:19
타이타닉 경진대회에서 적용한 방법으로, 이번에는 Bike Sharing 경진대회에 참가한다. Bike Sharing 은 데이터 수가 타이타닉보다 더 많아, 데이터 분석에 더 적합한 경진대회이다. 자전거를 빌릴때 관여를 하는 요인(컬럼)을 분석하고 예측하는 것이 목표이다. https://www.kaggle.com/c/bike-sharing-demand Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com 데이터를 다룰때 Tip 1. 충분한 데이터 분석 데이터를 머신런닝에 넣기전에, 엑셀분석과 데이터 시각화를 통해 완전히 데이터를 이해해야 한다. 머신런닝에 의존하게 되면, 점수가 안좋아졌을때 그 이유를 정확히 파악할 수 없기 때..
-
[DSSchool_Level4] 판다스, 데이터 시각화를 통한 타이타닉 데이터 분석Data Science 2019. 10. 31. 12:02
데이터 분석 순서 train, test 데이터 read seaborn 으로 컬럼별 분석. 시각데이터로 확인 후 => loc, pivot_table 등으로 상세 데이터 명확히 확인 분석결과를 바탕으로 전처리(Preprocessing): 데이터를 알고리즘이 이해할수 있는 형태로 변환(ex. 문자열->Int). train에 컬럼추가시 test 도 같이 변경해야 함 Decision Tree 학습(fit) - train 데이터 시각화하여 학습이 잘되었는지 확인(graphviz 사용) Decision Tree 예측(predict) - test 데이터 gender_submission.csv 에 예측결과 데이터를 넣기 케글에 제출 Graphviz Decision Tree를 시각화 할 수 있는 툴 mac 설치 : bre..
-
[DSSchool_Level3] 판다스 실습Data Science 2019. 10. 30. 18:07
Pandas 데이터 분석을 위한 라이브러리 https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html 10 minutes to pandas — pandas 0.25.2 documentation 10 minutes to pandas This is a short introduction to pandas, geared mainly for new users. You can see more complex recipes in the Cookbook. Customarily, we import as follows: In [1]: import numpy as np In [2]: import pandas as pd Object creation See t..
-
[DSSchool_Level2] 파이썬 기초Data Science 2019. 10. 25. 19:11
이전 시간에 해보았던 타이타닉 사고 분석을 파이썬과 데이터 시각화, 의사결정나무를 통해 다시 문제를 풀어본다. 앞으로 배워나가야 할 부분을 훑어보는 식으로 진행하며, 후반부에는 본격적으로 파이썬 문법을 기초부터 시작. 머신런닝 알고리즘 - Decision tree 트리모양으로, IF 문이 중첩되어 뻗어내려 가는 형태다. 가설을 세우고 검증하는 사람이 하는 행동을 모사한다. 데이터 분석을 왜 머신러닝 알고리즘(의사결정나무)으로 하면 좋은가 Level 1 에서 진행해 보았던 엑셀방식으로 하는 데이터 분석에서는, 가설을 세우기 위해서 해상사고의 배경 지식이 필요했다. 하지만, 머신러닝 알고리즘을 통하면 분석자가 배경지식을 가지고 있지 않아도 분석을 할 수 있다. 파이썬 문법 True == 1 # true 첫글..
-
[DSSchool_Level1] Kaggle 타이타닉 생존자 분석Data Science 2019. 10. 22. 22:46
DSShool 강의를 공부해가며 써내려 가는 포스팅 입니다. 입문 온라인 과정을 듣고 있으며, Level 8까지 진행됩니다. https://www.kaggle.com/c/titanic Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com kaggle은 올라와 있는 과제의 데이터 분석. 경쟁하고 순위를 매기는 커뮤니티 사이트. 높은 순위를 달성시, 데이터 사이언스로서 공신력을 가질수 있다고 한다 타이타닉과 유사한 사고가 났을때, 어떤 유형의 사람이 가장 많이 살아남나 분석, 예측하기 첫번째 수업내용으로는, 구글 스프레드 시트로 ..