Analiza danych ‘attenu’

Bartłomiej Kurowski

1. Charakterystyka ogólna danych

Podstawowe informacje o zbiorze danych ‘attenu’

  • Dane ‘attenu’ pochodzą z wbudowanego pakietu datasets.
  • Zawierają 182 obserwacje dotyczące 5 zmiennych z 23 trzęsieniach ziemi w Californi w USA w 1979 roku.
  • Główne zmienne:
  • event: Numer zdarzenia sejsmicznego
  • mag: Magnituda zdarzenia
  • station: Numer stacji pomiarowej
  • dist: Odległość stacji od hipocentrum
  • accel: Maksymalne przyspieszenie zdarzenia sejsmicznego

Przegląd danych

  • Liczba wierszy: 182
  • Liczba kolumn: 5

Rodzaje zmiennych.

'data.frame':   182 obs. of  5 variables:
 $ event  : num  1 2 2 2 2 2 2 2 2 2 ...
 $ mag    : num  7 7.4 7.4 7.4 7.4 7.4 7.4 7.4 7.4 7.4 ...
 $ station: Factor w/ 117 levels "1008","1011",..: 24 13 15 68 39 74 22 1 8 55 ...
 $ dist   : num  12 148 42 85 107 109 156 224 293 359 ...
 $ accel  : num  0.359 0.014 0.196 0.135 0.062 0.054 0.014 0.018 0.01 0.004 ...
  • W zbiorze attenu występują 4 zmienne numeryczne : event, mag, dist oraz accel, natomiast zmienna station jest zmienną typu factor o 117 poziomach.

Występowanie braków danych.

  • Suma braków danych dla każdej zmiennej
  event     mag station    dist   accel 
      0       0      16       0       0 
  • Braki występują w 16 obserwacjach i obejmują zmienną station

2. Podstawowe statystyki i elementy rozkładu zmiennych

Średnie i odchylenie standardowe dla zmiennych mag, dist i accel.

Średnia wielkośc magnitudy wynosi:  6.084066
Wartośći magnitudy odchylały się przeciętnie od średniej o :  0.7214312
Średnia długość dystansu wynosi:  45.6033
Średnie przyspieszenie wynosi:  0.1542198

Zakres, kwartyle i inne statystyki zmiennych.

  • Magnitudy:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  5.000   5.300   6.100   6.084   6.600   7.700 
  • Dystansu:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.50   11.32   23.40   45.60   47.55  370.00 
  • Przyspieszenia:
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
0.00300 0.04425 0.11300 0.15422 0.21925 0.81000 
  • W magnitudach występuje nie wielki rozstęp i asymetria, natomiast w przypadku dystansu i przyspieszenia rozstęp jest bardzo duży i występuje silna asymetria.

Opis zmiennych kategorycznych (station, event).

-Liczba unikalnych wartości dla zmiennych kategorycznych

Liczba unikalnych zdarzeń: 23
Liczba unikalnych stacji: 118
  • Zmienna event występuje w tylu stanach ile było zdarzeń, natomiast zmienna station występuje w znacznie większej ilości stanów co oznacza, że stacje powtarząją się tylko w niektórych przypadkach dla różnych zdażeń.

Częstość występowania poszczególnych zdarzeń

Częstość zdarzeń:
event
 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 
 1 10  1  9 11  1  1  5 22  1  3  1  2  4  4  3  3 11 38 16  7 10 18 
  • Najwięcej informacji jest o zdarzeniu 19 natomiast dla zdarzeń: 1,3,6,7,10,12 występuje tylko jedna obserwacja

Częstość występowania poszczególnych stacji

  • Wykres pokazuje, żę większsość stacji występuje w tylko jednej obserwacji, lecz istnieją takie które się powtarzają.

Histogram magnitudy

  • Histogram pokazuje, jak często różne wartości magnitudy występują w danych. Widać, żę większość zdażeń ma stosunkowo niską amplidute.

Histogram dystansu

  • Histogram ilustruje rozkład wartości odległości w danych, widać wyższe żróżnicowanie w porównaniu do magnitudy oraz silną asymetrie.

Histogram przyspieszenia

  • Histogram zmiennej accel, pokazuje, że większość zarejestrowanych wartości przyspieszeń ma niższe wartości, widać silną asymetrie.

Boxplot rozkładu zmiennej mag

  • Boxplot dla magnitudy pokazuje medianę, kwartyle i brak wartości odstających.

Boxplot rozkładu zmiennej dist

  • Boxplot dla odległości prezentuje medianę, kwartle oraz wiele wartości odstających.

Boxplot rozkładu zmiennej accel

  • Boxplot prezentuje medianę oraz kwartyle oraz pokazuje wartośći odstające.

3. Ciąg dalszy rozkładów zmiennych

Analiza rozkładu mag i dist (symetria, skośność, kurtoza).

Skośność magnitudy wynosi: 0.1913002  ,skośność bliska 0 wskazuje na symetryczny rozkład magnitudy
Kurtoza magnitudy wynosi: -0.7944264  ,kurtoza wskazuje na płaskokształtność rozkładu magnitudy
Skośność odległości wynosi: 2.861267  ,wysoka skośność wskazuje na rozkład prawostronny z długim ogonen w rozkładzie odległości
Kurtoza odległości wynosi: 9.294636  ,kurtoza sugeruje bardziej skoncentrowane w okół średniej wartości dystansu niż w przypadku magnitudy
Skośność przyspieszenia wynosi: 1.628092  ,wskazuje na rozkład prawostronny z ogonen w rozkładzie przyspieszenia
Kurtoza odległości wynosi: 3.004702  ,kurtoza sugeruje bardziej skoncentrowane wokuł średniej wartości przyspieszenia niż w przypadku magnitudy, lecz mnież niż dystansu

Testy normalności dla mag i dist (Shapiro-Wilk).


    Shapiro-Wilk normality test

data:  mag
W = 0.91904, p-value = 1.721e-08

    Shapiro-Wilk normality test

data:  dist
W = 0.63973, p-value < 2.2e-16

    Shapiro-Wilk normality test

data:  accel
W = 0.84077, p-value = 7.966e-13

Wartość p < 0.05 w trzech przypadkach sugeruje, że rozkłady magnitudy, dystansu i przyspieszenia nie są rozkładami normalnymi.

Wykres gęstości dla mag

Gęstość pokazuje, żę rozkład jest multimodalny (3 szczyty)

Wykres gęstości dla dist

Odległości są zróżnicowane, lecz dominują niskie wartości dystansów

Wykres gęstości dla accel

  • Gęstość pokazuje że rozkład jest monomodalny ( jeden szczyt ) i silnie asymetryczny

Histogram z nałożonymi gęstościami dla mag.

Histogram z nałożonymi gęstościami dla dist.

Histogram z nałożonymi gęstościami dla accel

4. Zależności między zmiennymi

Korelacje między zmiennymi numerycznymi (mag, dist).

Współczynnik korelacji między 'mag' a 'dist' wynosi: 0.4951375

Współczynnik korelacji oznacza silną zależność dodatnią.

Scatter plot pokazujący zależność między odległością, a magnitudą.

  • Wykres punktowy pokazuje, że istnieje zależność między odległością, a magnitudą, im większa odległość tym większa magnituda.

Heatmapa korelacji między zmiennymi numerycznymi.

  • Heatmapa przedstawia poziomy korelacji między zmiennymi numerycznymi. Kolory wskazują siłę i kierunek zależności.

5. Zdarzenia o najniższej i najwyższej magnitudzie i odległościach

Scatter plot mag i dist dla ekstremalnych zdarzeń (skrajnych magnitud)

  • Wykres pokazuje skrajne wartośći magnitudy, wskazują one na skrajnie słabe i mocne zdarzenia sejsmiczne.

Scatter plot mag i dist dla ekstremalnych zdarzeń ( skrajnych dystansów)

  • Wykres pokazuje skrajne wartości odległości, wskazują one na zdarzenia będące skrajnie blisko stacji rejestrującej oraz skrajnie daleko.

6. Współczynniki zmienności zmiennych mag i dist

Wartości współczynników zmienności

Współczynnik zmienności dla magnitudy (mag) wynosi: 0.1185771
Współczynnik zmienności dla odległości (dist) wynosi: 1.36328
  • Oznacza to, że wartości magnitudy są słabo zmienne w stosunku do średniej, natomiast wartości dystansu silnie.

Wykres słupkowy współczynnika zmienności

  • Wykres porównuje współczynnik zmienności między zmiennymi, widać, że dla odległości jest znacznie większy niż dla magnitudy.

7. Podsumowanie i wnioski

Podsumowanie

  • Zbiór danych attenu dostarcza informacji na temat trzęsień ziemi w Kalifornii, obejmując zmienne dotyczące magnitudy, odległości, przyspieszenia oraz stacji i zdarzeń.

  • Dane zawierają pewne braki (16 przypadków w zmiennej station), lecz większość zmiennych jest kompletna.

  • Wykresy takie jak histogramy, boxploty i heatmapy efektywnie obrazują charakterystykę danych.

  • Analiza ekstremalnych wartości (największych i najmniejszych magnitud oraz dystansów) pozwala na identyfikację szczególnych przypadków zdarzeń sejsmicznych.

Wnioski

  • Dane pozwalają na podstawową analizę rozkładów, korelacji i zmienności, wyniki sugerują, że dalsza analiza powinna uwzględniać zmienne kontekstowe, takie jak lokalizacja i czas zdarzeń, gdyby były dostępne.

  • Zmienność odległości w stosunku do stacji pomiarowych wymaga dodatkowego wyjaśnienia – może wskazywać na wpływ różnic geograficznych.

  • Prezentacja ta dostarcza solidnej podstawy do dalszych, bardziej zaawansowanych analiz, szczególnie w zakresie modelowania wpływu zmiennych sejsmicznych na różne parametry trzęsień ziemi.