Hierarchical Clustering
비지도학습. 군집분석 기법
계층적 군집 방법(non-hierarchical clustering)은 군집 수 k를 사전에 지정하지 않음
- 유형
- 단일연결법(single linkage method)
- 두 군집의 모든 객체 쌍의 거리 중 가장 가까운 거리를 사용
- 완전연결법(complete linkage method)
- 두 군집의 모든 객체 쌍의 거리 중 가장 먼 거리를 사용
- 평균연결법(average linkage method)
- 두 군집의 모든 객체 쌍의 평균 거리를 사용
- 중심연결법(centroid linkage method)
- 두 군집의 중심 좌표를 사용
- Ward연결법(Ward’s method)
- 군집 내 제곱합을 사용
- 단일연결법(single linkage method)
- 참고하자
- 분석 준비
- library 및 데이터 불러오기
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
## load dataset library(lattice) library(DAAG) library(dplyr) wages1833 %>% head() str(wages1833) summary(wages1833) ## delete omitted value dat1 <- na.omit(wages1833) |
- Cluster 생성
- 거리 계산 -> hierarchical clustering
1 2 3 4 5 6 7 8 9 10 11 12 13 |
# 거리 계산 dist_data <- dist(dat1) dist_data # 거리 계산:: 유클리디안이 아닌 다른 방법 사용하려면, dist 계산을 위한 method 지정 dist_data <- dist(dat1, method = "minkowski") # hierarchical clustering hc_a <- hclust(dist_data, method = "complete") # method: single, complete, average, centroid, ward.D2 plot(hc_a, hang= -1, cex=0.8) # hang= -1 은 label 위치 고정 |