google_adsense2


데이터를 받으면 제일 먼저 해야할 일 by 메타샤워

모든 데이터에 행해야할 분석


1. 데이터 내용, 구조, 타입을 파악해야한다. 
R에서 dplyr::glimpse() 함수가 유용하다. 
데이터 구조를 파악할 수 있는 str(),
데이터의 맨 앞 부분을 보여주는 head(), 데이터의 맨 뒷 부분을 보여주는 tail()

2. 데이터의 요약 통계량을 summary로 파악한다.

3. 결측치가 있는지 summary로 살펴 본다.

4. 무작정 시각화를 해본다.
plot(), piars()를 돌려보면 좋다.
데이터의 관측치가 많을 때는 실행시간이 길으니 dplyr::sample_n() 함수등을 사용해 표본화 해본다.
데이터의 변수가 10개 이상많을 때에는 10열씩 구분하여 살펴보는것도 유용하다

핑백

덧글

댓글 입력 영역


google_adsense