melike

2 dakikalık okuma

Biyolojide temel bilesenler analizini (PCA) cok siklikla kullaniyoruz. Neredeyse her makalede PCA figurleri goruyoruz. Bu yuzden burada PCA figurlerinin yorumlanmasini kolaylastiracagini dusundugum bir puf noktasi paylasmak istiyorum.

R icinde mevcut olan USArrests verisetini kullanacagiz. Dataseti hakkinda bilgi almak icin ?USArrests komutunu calistirmayi deneyebilirsiniz.

head(USArrests)
##            Murder Assault UrbanPop Rape
## Alabama      13.2     236       58 21.2
## Alaska       10.0     263       48 44.5
## Arizona       8.1     294       80 31.0
## Arkansas      8.8     190       50 19.5
## California    9.0     276       91 40.6
## Colorado      7.9     204       78 38.7

Burada PCA yapiyoruz:

pcax = prcomp(USArrests, scale = T)
head(pcax$x)
##                   PC1        PC2         PC3          PC4
## Alabama    -0.9756604  1.1220012 -0.43980366  0.154696581
## Alaska     -1.9305379  1.0624269  2.01950027 -0.434175454
## Arizona    -1.7454429 -0.7384595  0.05423025 -0.826264240
## Arkansas    0.1399989  1.1085423  0.11342217 -0.180973554
## California -2.4986128 -1.5274267  0.59254100 -0.338559240
## Colorado   -1.4993407 -0.9776297  1.08400162  0.001450164

R icindeki plot fonksiyonunu kullanarak sonuclari gorebiliriz:

plot(pcax$x)

Hatta biplot fonksiyonunu kullanarak datanin dagilimini neler sagliyor buna da bakabiliriz. Ancak benim bu gonderiyi hazirlarkenki esas amacim eksen uzunluklari hakkinda bir yorumda bulunmak. Su iki figure bakin:

plot(pcax$x)

plot(pcax$x)

Bunlar ayni mi? Evet ayni figur cizilmis ancak ikisine verdiginiz tepki, ikisini yorumlamaniz ayni mi? Hayir, degil mi? Ilk figur x-eksenine cok daha fazla agirlik vermekte. Iste benim onerimse su:

library(tidyverse)
varexplained = summary(pcax)$imp[2, 1:2]
varratio = unname(varexplained[1]/varexplained[2])
data.frame(pcax$x) %>% ggplot(aes(x = PC1, y = PC2)) + geom_point() + 
    theme_bw() + coord_fixed(ratio = 1/varratio)

Burada, bence, noktalarin dagilimini daha iyi (dogru) yorumlayabiliriz cunku eksen uzunluklari ayni zamanda temel bilesenlerin acikladiklari varyans ile orantili olarak cizildi. PC1 varyansin %62sini PC2 de %25ini acikliyor ve bu yuzden x-ekseni y-ekseninin 2.5 kati olarak cizildi.

Say something

Comments

Nothing yet.