SVM(Support Vector Machine, 서포트 벡터 머신)?

지도학습. 분류분석 기법

 

  • 기본 개념
    • 주어진 data의 클래스를 나눌 수 있는 초평면(hyperplane)을 구하는 것
      • 초평면에 가장 가까운 원래의 데이터 포인트(초평면을 찾는 데 가장 기여한 데이터 포인트)를 support vector라고 함
      • 초평면을 나누는 기준은 support vector에서의 margin을 최대로 만드는 값 (Maximal marginal hyperplane)
      • 즉,
        • 1) 데이터를 한 가운데로 얼마나 잘 나누는가 (margin 최대화)
        • 2) 잘못 구분한 접ㅁ으로 인한 비용의 합을 최소화 (적절한 수준의 cost)
    • 단점은
      • randomForest와 마찬가지로, blackbox model = 모델에 대한 설명을 할 수 없음
    • Parameter
      • gamma , cost
    • 참고하자

 

  • 분석 준비
    • 데이터 불러오기 및 train/test 분리

 

  • SVM 모델 생성
    • 참고
    • Parameter tuning
      • cost: 얼만큼 오차를 허용할 것인가?
        • cost가 큰 값을 가지면 margin의 폭이 좁아진다
      • kernal: x에 대한 새로운 특징을 추출하는 변환함수 (기저함수)
        • kernel의 기본값은 radial.
        • 어떤 kernel을 사용할지를 결정하기 위해서는 데이터 분포를 plot으로 확인하는 작업이 우선 필요!
          • linear
          • radial
          • sigmoid
          • polynomial
      • gamma: 가우시안 함수의 표준편차를 조정하는 인자.? 큰 값을 가질수록 작은 값은 표준편차를 가진다.
        • kernel이 radial일 때 설정해줘야 함 (linear인 경우에는 불필요)
        • gamma의 기본값은 1/(# of dimension)

 


Leave Comment

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다