[TIL] 2017-09-30 (토) ~ 2017-10-08 (일)


  • 추석 연휴
    • 부산, 울산 나들이…
  • 연휴 때 그냥저냥 한 것들
    • 책읽기
      • 온다 리쿠의 ‘밤의 피크닉’ 다시 읽음
    • 영화
      • 타짜 2 (뜬금없이 이걸 봤네…)
    • R스터디
      • linear regression과 logistic regression 관련 udemy 강의듣기 + 실습
      • 블로그에 관련 내용 정리
      • 여기저기 산재되어 있던 regression 관련 내용들 이제 대강 큰 흐름은 머릿속에 정리한 듯…

Data Manipulation – 2. 값 변경


Variable 변경

  • 변수 삭제, 변수명 변경 등등…

 

Value 변경

  • 값 변경

 

One hot encording

 


Data Manipulation – 1. 결측치/이상치 처리


데이터 살펴보기

 

결측치 처리

  • is.na 활용

 

Missing map

  • missing data 있는지 시각적으로 확인하려면… (Amelia::missmap)

 

결측치 처리방법

  • 1. 단순무식하게 그냥 뺀다

 

  • 2. 특정 값으로 대체한다 (Single imputation)

 

  • 3. 고급지게(?) 대체한다? (Multiple imputation)
    • MAR 가정: Missing At Random (결측 변수값과 결측여부과 무관.? 단, 관측된 타 변수들과 결측여부가 관련있음)
    • https://www.analyticsvidhya.com/blog/2016/03/tutorial-powerful-packages-imputing-missing-values/
    • MICE 패키지
      • MICE method
        • PMM (Predictive Mean Matching) ? For numeric variables
        • logreg(Logistic Regression) ? For Binary Variables( with 2 levels)
        • polyreg(Bayesian polytomous regression) ? For Factor Variables (>= 2 levels)
        • Proportional odds model (ordered, >= 2 levels)