로지스틱 회귀분석(Logistic Regression)?

수량형 x + 범주형 y: 독립변수는 수량형 자료, 종속변수는 범주형 자료인 경우 사용
대부분 종속변수가 성공/실패, 0/1 등 이원화되는 케이스를 다룸 (=이항 로지스틱 회귀분석)

 

 

  • 분석 준비
    • 데이터셋 불러오기
    • 데이터 구조 확인 (str)
      • character 속성의 변수를 로지스틱회귀분석 모형에 포함하려면 factor로 변경해야 함

 

  • Train / Test 데이터 세팅
    • caTools() 라이브러리 사용

 

  • 로지스틱 회귀분석 모형 적합
    • glm(, family=binomial) 사용

 

 

  • 예측
    • predict() 함수 활용
    • train과 test를 분리한 경우, train을 통해 만든 모델을 test에 적용
    • 그렇지 않은 경우, 임의의 new data를 대상으로 모델 적용?

 

  • 모델 평가
    • ROC 커브
      • ROC 커브 아래의 영역 AUC가 1에 가까울수록 모델의 예측 정확도가 높음?

 

 

 


Leave Comment

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다