K 최근접 이웃(K Nearest Neighbor)?

 

  • 기본 개념
    • 지도학습 중 분류 문제를 다루는 데 활용
    • 거리를 측정하는 기법이니만큼, 수치형 데이터를 기반으로 범주를 예측하는 형태임
      • 명목변수나 결측치는 따로 처리해야 한다. ?근데 어떻게 따로 처리할지는 아직 잘 모르겠음 ;;; ㄷㄷ
    • 따로 분포를 가정하지 않는 비모수적 방법(non-parametric method)
    • 일반적으로 KNN이 효과적이려면 데이터 개수가 많아야 함 (분산이 커지는 것 방지)
    • 별도로 모델을 구축하지 않으므로, 관계에서 새로운 인사이트를 얻는 데는 제한적
    • http://kkokkilkon.tistory.com/14

 

  • 분석 준비
    • 데이터셋 불러오기
    • 데이터 구조 확인 (str)
    • 개별 컬럼의 분산 (variance) 확인?
      • 거리 기준으로 계산을 하는 방법론이므로, 분산의 차이가 크면 특정 변수의 영향도가 필요 이상으로 커짐
      • 분산의 편차가 큰 경우, scale 함수를 통해서 표준화를 해 줘야 함

 

  • Train / Test 데이터 세팅
    • caTools() 라이브러리 사용

 

  • KNN model?

 

  • K value 선택?
    • 일반적으로 k는 홀수가 좋음 (짝수인 경우, 다수결에서 동수가 나올 수 있으므로!)

 

  • kknn:: 거리에 따라 가중치 부여 (weighted knn)

 

 


1 Comments

  1. Pingback: 판별분석 (Discriminant analysis) – LDA, QDA – Today I Learned

Leave Comment

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다