주성분분석 (PCA, Principle Component Analysis)


PCA (Principle Component Analysis)

주성분분석

 

  • 개념
    • 여러 변수들의 변량을 ‘주성분(Principal Component)’이라고 불리는, 서로 상관성이 높은 여러 변수들의 선형조합으로 만든 새로운 변수들로 요약, 축소하는 기법
    • 데이터 집합 내 존재하는 차이를 가장 잘 설명할 수 있는 새로운 변수를 찾아내는 것
    • 예측력을 높이고 + 다중공선성을 줄이는 효과

 

 

  • 분석 준비
    • library 및 데이터 불러오기

 

  • 주성분분석

 

  • 주성분분석의 활용

 


순차 패턴 분석 (Sequence Pattern Analysis)


Sequence Pattern Analysis

순차 패턴 분석

 

  • 개념
    • 연관규칙 분석과 유사한 아이디어에서 출발.  시간/순서 에 따른 사건의 규칙을 찾는다는 점이 결정적으로 다르다.
      • 연관규칙 분석: what goes WITH what?
      • 순차패턴 분석: what goes AFTER what?
    • 거래 집합 셋 + Identity information + Timestamp(sequence info.) 가 필요함
    • 유용성 평가 척도로는 support를 사용

 

 

  • 분석 준비
    • library 및 데이터 불러오기

 

  • 순차패턴 분석

 


연관 규칙 분석 (Association Rule Analysis)


Association Rule Analysis

연관규칙 분석

 

  • 개념
    • 일련의 거래, 사건들 간의 규칙을 발견

 

  • 평가 척도
    • 지지도(support)
      • A와 B를 동시에 포함하는 거래수 / 전체 거래수
      • 값이 클수록 자주 발생하는 거래 (규칙의 중요성에 대한 척도)
    • 신뢰도(confidence)
      • A와 B를 동시에 포함하는 거래수 / A를 포함하는 거래수
      • A가 일어난 상황 하에서 B가 일어날 확률 (조건부확률)
      • 값이 클수록 A 구매 시 B도 구매하는 비율이 높음 (규칙의 신뢰성에 대한 척도)
    • 향상도(lift)
      • A와 B를 동시에 포함하는 거래비율 / (A를 포함하는 거래비율 * B를 포함하는 거래비율)
      • 항목 A와 B의 구매 패턴이 독립적인지, 서로 상관이 있는지를 확인
      • 값이 1보다 클수록 양의 상관관계
        • lift = 1  (서로 독립.  상관관계 없음)
        • 0 < lift < 1 (음의 상관관계)

 

 

  • 분석 준비
    • library 및 데이터 불러오기
    • id별로 split 한 후 transaction 데이터로 변환

 

  • 연관규칙 분석

 

  • 다른 데이터셋으로 한번 더 ㅎㅎ

 


계층적 군집 분석 (Hierarchical Clustering)


Hierarchical Clustering

비지도학습. 군집분석 기법
계층적 군집 방법(non-hierarchical clustering)은 군집 수 k를 사전에 지정하지 않음

 

  • 유형
    • 단일연결법(single linkage method)
      • 두 군집의 모든 객체 쌍의 거리 중 가장 가까운 거리를 사용
    • 완전연결법(complete linkage method)
      • 두 군집의 모든 객체 쌍의 거리 중 가장 먼 거리를 사용
    • 평균연결법(average linkage method)
      • 두 군집의 모든 객체 쌍의 평균 거리를 사용
    • 중심연결법(centroid linkage method)
      • 두 군집의 중심 좌표를 사용
    • Ward연결법(Ward’s method)
      • 군집 내 제곱합을 사용

 

 

  • 분석 준비
    • library 및 데이터 불러오기

 

  • Cluster 생성
    • 거리 계산 -> hierarchical clustering