Analiza zbioru danych ‘crabs’

Zbiór danych crabs znajduje się w pakiecie MASS, który jest jednym z pakietów dostępnych w środowisku statystycznym R.

Dane crabs zawierają pomiary morfometryczne na krabach z gatunku Leptograpsus variegatus, zebrane w Fremantle w zachodniej Australii. Każdy rekord w zbiorze danych odpowiada pojedynczemu krabowi.

library(MASS)
head(crabs)
##   sp sex index   FL  RW   CL   CW  BD
## 1  B   M     1  8.1 6.7 16.1 19.0 7.0
## 2  B   M     2  8.8 7.7 18.1 20.8 7.4
## 3  B   M     3  9.2 7.8 19.0 22.4 7.7
## 4  B   M     4  9.6 7.9 20.1 23.1 8.2
## 5  B   M     5  9.8 8.0 20.3 23.0 8.2
## 6  B   M     6 10.8 9.0 23.0 26.5 9.8

Relacja między szerokością a długością pancerza

Gatunek pomarańczowy

library(ggplot2)
attach(crabs)
sp=factor(sp)
sex=factor(sex)

ggplot(crabs[sp=='O',],aes(x=CW, y=CL, color=sex))+
  geom_point()+
  labs(x='Szerokość pancerza', y='Długość pancerza', color='Płeć')+
  theme(legend.position='bottom')+
  scale_color_manual(values = c('M'='peru', 'F'='yellowgreen'),
                     labels=c('Samica', 'Samiec'))

Powyższy wykres przedstawia relację między szerokością a długością pancerza krabów gatunku oznaczonego jako ‘O’, z rozróżnieniem na płeć.

Możemy z niego wywnioskować, że istnieje zależność między tymi dwoma zmiennymi. Nie jesteśmy jednak w stanie stwierdzić zależności wielkości krabów od ich płci. Zamierzam jednak przeanalizować to w dalszej części pracy.

Orange=lm(CL[sp=='O'] ~ CW[sp=='O'])
summary(Orange)
## 
## Call:
## lm(formula = CL[sp == "O"] ~ CW[sp == "O"])
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.46338 -0.29732  0.07358  0.33298  1.18606 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   0.076692   0.282674   0.271    0.787    
## CW[sp == "O"] 0.894110   0.007277 122.864   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.546 on 98 degrees of freedom
## Multiple R-squared:  0.9935, Adjusted R-squared:  0.9935 
## F-statistic: 1.51e+04 on 1 and 98 DF,  p-value: < 2.2e-16

Skupiając się na statystykach testów możemy wywnioskować, że model regresji liniowej wskazuje na silną i statystycznie istotną zależność między szerokością pancerza a jego długością u krabów pomarańczowych. Wskazuje na to między innymi duża wartość statystyki F (1.51e+04) oraz bardzo niska wartość p (2.2e-16).

plot(CW[sp=='O'], CL[sp=='O'], pch=20, xlab='Szerokość pancerza', ylab='Długość pancerza')
abline(Orange, col='orange', lwd=3)

Gatunek niebieski

ggplot(crabs[sp=='B',], aes(x=CW, y=CL, color=sex))+
  geom_point()+
  labs(x='Szerokość pancerza', y='Długość pancerza', color='Płeć')+
  theme(legend.position='bottom')+
  scale_color_manual(values = c('M'='darkblue', 'F'='turquoise'),
                     labels=c('Samica', 'Samiec'))

Powyższy wykres przedstawia relację między szerokością a długością pancerza krabów niebieskich.

Tak samo jak z wykresu dla krabów pomarańczowych, tak i tutaj możemy z łatwością wywnioskować, że istnieje zależność między zmiennymi. W odróżnieniu jednak od gatunku ‘O’ jesteśmy w stanie zauważyć niewielki dymorfizm płciowy w kontekście wielkości pancerzy, co przeanalizujemy dokładniej w dalszej części pracy.

Blue=lm(CL[sp=='B'] ~ CW[sp=='B'])
summary(Blue)
## 
## Call:
## lm(formula = CL[sp == "B"] ~ CW[sp == "B"])
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.22658 -0.21136 -0.01166  0.26771  0.98155 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -0.364420   0.167300  -2.178   0.0318 *  
## CW[sp == "B"]  0.876297   0.004701 186.407   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.3679 on 98 degrees of freedom
## Multiple R-squared:  0.9972, Adjusted R-squared:  0.9972 
## F-statistic: 3.475e+04 on 1 and 98 DF,  p-value: < 2.2e-16

Obserwacje są praktycznie takie same jak przy gatunku ‘O’. Model regresji liniowej w tym przypadku również wskazuje na silną i statystycznie istotną zalezność między szerokością a długością pancerza u krabów niebieskich. Wartość statystyki F jest nawet większa niż u krabów pomarańczowych (3.475e+04), a wartość p jest niska (2.2e-16).

plot(CW[sp=='B'], CL[sp=='B'], pch=20, xlab='Szerokość pancerza', ylab='Długość pancerza')
abline(Blue, col='blue', lwd=3)

Porównanie długości pancerzy w zależności od płci

Gatunek pomarańczowy

Or=crabs[sp=='O',]

summary(Or$CL[sex=='F'], na.rm = TRUE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   21.40   31.05   34.70   34.62   39.70   46.20      50
summary(Or$CL[sex=='M'], na.rm = TRUE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   16.70   28.75   33.35   33.69   39.02   47.60      50

Kraby pomarańczowe obu płci mają podobne średnie i mediany długości pancerza, choć zakres rozmiarów, zwłaszcza wśród samców, jest szerszy. Różnice w minimalnych wartościach sugerują większą zmienność rozmiarów wśród samców. Średnie i mediany dla obu płci są zbliżone, co sugeruje, że rozmiary pancerzy są podobne.

## H0: m1=m2
## H1: m1<m2
## Sprawdzamy prawdziwość hipotezy głoszącej, że średnia długość pancerzy samic gatunku
## 'O' jest mniejsza niż średnia długość pancerzy samców tego samego gatunku.
## Przyjmujemy poziom istotności równy 0.05.

m1=Or$CL[sex=='F']
m2=Or$CL[sex=='M']

shapiro.test(m1)
## 
##  Shapiro-Wilk normality test
## 
## data:  m1
## W = 0.97989, p-value = 0.5474
shapiro.test(m2)
## 
##  Shapiro-Wilk normality test
## 
## data:  m2
## W = 0.97709, p-value = 0.4366
## Nie mamy podstaw do odrzucenia hipotezy głoszącej, że obydwa rozkłady są zgodne z
## rozkładem normalnym.

t.test(m1,m2,alternative = 'less')
## 
##  Welch Two Sample t-test
## 
## data:  m1 and m2
## t = 0.68559, df = 91.825, p-value = 0.7527
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##      -Inf 3.183964
## sample estimates:
## mean of x mean of y 
##    34.618    33.688

Ostatecznie nie mamy podstaw do odrzucenia hipotezy H0 głoszącej, że średnia długość pancerzy samic gatunku ‘O’ jest taka sama jak średnia długość pancerzy samców tego samego gatunku. Wniosek ten zgadza się z moimi wcześniejszymi przypuszczeniami.

ggplot(Or, aes(x=sex, y=CL, fill=sex))+
  geom_boxplot()+
  labs(x='Płeć', y='Długość pancerza', fill='Płeć')+
  theme(legend.position='bottom')+
  scale_fill_manual(values=c('M'='peru', 'F'='yellowgreen'),
                     labels=c('Samica', 'Samiec'))

Gatunek niebieski

Bl=crabs[sp=='B',]

summary(Bl$CL[sex=='F'], na.rm = TRUE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   14.70   23.93   27.90   28.10   32.75   40.90      50
summary(Bl$CL[sex=='M'], na.rm = TRUE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   16.10   27.23   32.45   32.01   37.15   47.10      50

Wartości średnie niebieskich samic i samców zdecydowanie bardziej się różnią niż w przypadku krabów pomarańczowych. W dalszym ciągu zakres rozmiarów wśród samców jest większy niż wśród samic. Można więc delikatnie zwrócić się w stronę tezy, że samce tego gatunku mają dłuższe pancerze niż samiczki. Zgadzałoby się to również z ogólnym schematem występującym u wielu gatunków skorupiaków, gdzie samce z reguły są większe.

## H0: m1=m2
## H1: m1>m2
## Sprawdzamy prawdziwość hipotezy głoszącej, że średnia długość pancerzy samców gatunku
## 'B' jest większa niż średnia długość pancerzy samic tego samego gatunku.
## Przyjmujemy poziom istotności równy 0.05.

m1=Bl$CL[sex=='M']
m2=Bl$CL[sex=='F']

shapiro.test(m1)
## 
##  Shapiro-Wilk normality test
## 
## data:  m1
## W = 0.98153, p-value = 0.6179
shapiro.test(m2)
## 
##  Shapiro-Wilk normality test
## 
## data:  m2
## W = 0.98426, p-value = 0.7395
## Nie mamy podstaw do odrzucenia hipotezy głoszącej, że obydwa rozkłady są zgodne z
## rozkładem normalnym.

t.test(m1,m2,alternative = 'greater')
## 
##  Welch Two Sample t-test
## 
## data:  m1 and m2
## t = 2.9411, df = 93.947, p-value = 0.002059
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  1.702382      Inf
## sample estimates:
## mean of x mean of y 
##    32.014    28.102

Ostatecznie odrzucamy hipotezę sprawdzaną na rzecz hipotezy alternatywnej głoszącej, że średnia długość pancerzy samców gatunku ‘B’ jest większa od średniej długości pancerzy samic tego samego gatunku. Moje wcześniejsze obserwacje znajdują potwierdzenie w wynikach testu t-studenta.

ggplot(Bl, aes(x=sex, y=CL, fill=sex))+
  geom_boxplot()+
  labs(x='Płeć', y='Długość pancerza', fill='Płeć')+
  theme(legend.position='bottom')+
  scale_fill_manual(values=c('M'='darkblue', 'F'='turquoise'),
                     labels=c('Samica', 'Samiec'))

Podsumowanie

Podsumowując moje dotychczasowe badania nad relacją między szerokością a długością pancerza krabów, skoncentrowałam się na dwóch gatunkach, biorąc pod uwagę różnice płciowe. Analizując dane, stwierdziłam silną zależność między długością pancerza a jego szerokością dla obu gatunków, co potwierdziły wyniki modelu regresji liniowej. W przypadku krabów pomarańczowych, moje obserwacje wykazały brak istotnych statystycznie różnic w średnich długościach pancerzy między samcami a samicami. Natomiast przy analizie krabów niebieskich, było wręcz odwrotnie. Takie wyniki znajdują odzwierciedlenie w ogólnych schematach rozmiarów u skorupiaków, gdzie często samce są większe od samic.