-
[DSSchool_Level1] Kaggle 타이타닉 생존자 분석Data Science 2019. 10. 22. 22:46
DSShool 강의를 공부해가며 써내려 가는 포스팅 입니다.
입문 온라인 과정을 듣고 있으며, Level 8까지 진행됩니다.
https://www.kaggle.com/c/titanic
Titanic: Machine Learning from Disaster
Start here! Predict survival on the Titanic and get familiar with ML basics
www.kaggle.com
kaggle은 올라와 있는 과제의 데이터 분석. 경쟁하고 순위를 매기는 커뮤니티 사이트.
높은 순위를 달성시, 데이터 사이언스로서 공신력을 가질수 있다고 한다
타이타닉과 유사한 사고가 났을때,
어떤 유형의 사람이 가장 많이 살아남나 분석, 예측하기
첫번째 수업내용으로는, 구글 스프레드 시트로 캐글 타이타닉 자료를 분석해 보는 것.
예측 모델을 만들어, 이를 바탕으로 테스트 데이터의 승객이 살았는지 죽었는지를 예측해 본다.
가장 쉬운 모델을 먼저 만들어보고, 확장하는 방식으로 진행하는 것이 좋다.(예. 모두 죽는다고 가정)
먼저, 케글 타이타닉 사이트에 접속해 train.csv, test.csv 파일을 저장한다.
train.csv 은 분석데이터, test.csv 는 예측 데이터 파일이다.
train.csv 에는 있는 Survived 컬럼이 test 에는 없는 것을 확인할 수 있는데,
우리가 해야할 일은, test 파일에 Survived(0: 죽음, 1: 생존) 컬럼과 예측값을 넣는 것 이다.
데이터 분석 루틴
- 가설
- 가설이 맞는지 검증
- 검증 결과를 바탕으로 예측. 예측이 틀렸으면 다시 가설 세우기
만약, Pclass 의 등급이 높았다고 가설을 세운다면,
아래와 같이 피봇테이블 기능을 이용해 가설이 맞는지 검증해 본다.
예상과 틀린 결과가 나왔다면, 가설을 수정하고 다시 검증하는 방식으로 진행한다.
피봇테이블 기능을 이용해 컬럼의 생존률을 비교해 본다. TIP. 성별 컬럼은 다른 컬럼에 비해 생존율이 확연하게 다르다는 것을 볼 수 있으므로,
가장 첫번째 전제로 놓고 가설에 따른 다른 컬럼을 비교해 본다. 3개 컬럼으로 케글점수 7.77 를 받을 수 있다.
어떤 가설이 확립이 되었다면, test.csv 파일에 Survived 데이터를 넣는다.
Survived는 IF 문을 활용하여 넣는다.
PassengerId, Survived 만 남긴 상태에서 .csv 파일로 저장후, 케글에 업로드 하여 스코어를 확인해 본다.
IF조건식
= IF (조건, 조건의 참, 조건의 거짓)
여자는 살고(1) 남자는 죽는데(0), 남자중에 1등급은 산다고 하면
= IF ( 성별 = "female", 1, IF( 등급 = 1, 1, 0) )'Data Science' 카테고리의 다른 글
[DSSchool_Level6] Kaggle - Bike Sharing Demand2 (0) 2019.11.10 [DSSchool_Level5] Kaggle - Bike Sharing Demand (0) 2019.11.06 [DSSchool_Level4] 판다스, 데이터 시각화를 통한 타이타닉 데이터 분석 (0) 2019.10.31 [DSSchool_Level3] 판다스 실습 (0) 2019.10.30 [DSSchool_Level2] 파이썬 기초 (0) 2019.10.25