LDA (선형 판별분석, Linear Discriminant Analysis)

2개 이상의 모집단으로부터 표본이 섞여 있을 때, 개별 case에 대하여 그것이 어떤 모집단에 속해있는지를 판별하기 위한 함수를 만들어서 해당 판별함수를 기반으로 분류.
판별함수는 일반적으로 그룹 내 분산(variance within group)에 비하여 그룹 간 분산(variance between group)의 최대화로 얻어짐.
이까지 설명만 놓고 보면 ANOVA나 SVM과 비슷할 것 같지만(?),  보통 logistic regression 과 많이 비교됨.  (참조)

 

  • 판별분석 종류
    • 선형판별분석(Linear DA) : 정규분포의 분산-공분산 행렬이 범주에 관계없이 동일한 경우
    • 이차판별분석(Quadratic DA) : 정규분포의 분산-공분산 행렬이 범주별로 다른 경우

 

 

  • 분석 준비 (이까지는 knn과 똑같다)
    • 데이터셋 불러오기
    • 데이터 구조 확인 (str)
    • 개별 컬럼의 분산 (variance) 확인?
      • 거리 기준으로 계산을 하는 방법론이므로, 분산의 차이가 크면 특정 변수의 영향도가 필요 이상으로 커짐
      • 분산의 편차가 큰 경우, scale 함수를 통해서 표준화를 해 줘야 함

 

  • Train / Test 데이터 세팅
    • caTools() 라이브러리 사용

 

  • Discriminant modeling: LDA (Linear DA)

 

  • Discriminant modeling: QDA (Quadratic DA)

 


1 Comments

  1. Pingback: [TIL] 2018-04-16 (월) – Today I Learned

Leave Comment

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다