Analiza danych Iris

Karina Kaiser

Wstęp

Zbiór danych Iris to klasyczny zestaw danych używany w analizie danych. Składa się z 150 obserwacji, gdzie każda obserwacja opisuje cechy trzech gatunków irysów:

  • Setosa
  • Versicolor
  • Virginica

Każda obserwacja zawiera następujące cechy :

  • Sepal Length (długość działki kielicha),
  • Sepal Width (szerokość działki kielicha),
  • Petal Length (długość płatka),
  • Petal Width (szerokość płatka)

Struktura zbioru dancyh

'data.frame':   150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

Podstawowe statystyki opisowe dla całego zbioru

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  
                
                
                

Macierz korelacji między cechami (bez uwzględnienia gatunków):
             Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411
Sepal.Width    -0.1175698   1.0000000   -0.4284401  -0.3661259
Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654
Petal.Width     0.8179411  -0.3661259    0.9628654   1.0000000

Analiza cech kwiatu iris w kontekście gatunków

Średnie wartości cech dla poszczególnych gatunków:
     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1     setosa        5.006       3.428        1.462       0.246
2 versicolor        5.936       2.770        4.260       1.326
3  virginica        6.588       2.974        5.552       2.026

Mediany wartości cech dla poszczególnych gatunków:
     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1     setosa          5.0         3.4         1.50         0.2
2 versicolor          5.9         2.8         4.35         1.3
3  virginica          6.5         3.0         5.55         2.0


Maksymalne wartości cech dla poszczególnych gatunków:
     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1     setosa          5.8         4.4          1.9         0.6
2 versicolor          7.0         3.4          5.1         1.8
3  virginica          7.9         3.8          6.9         2.5

Minimalne wartości cech dla poszczególnych gatunków:
     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1     setosa          4.3         2.3          1.0         0.1
2 versicolor          4.9         2.0          3.0         1.0
3  virginica          4.9         2.2          4.5         1.4


 Kwartyl (Q1) dla poszczególnych gatunków:
     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1     setosa        4.800       3.200          1.4         0.2
2 versicolor        5.600       2.525          4.0         1.2
3  virginica        6.225       2.800          5.1         1.8

 Kwartyl (Q3) dla poszczególnych gatunków:
     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
1     setosa          5.2       3.675        1.575         0.3
2 versicolor          6.3       3.000        4.600         1.5
3  virginica          6.9       3.175        5.875         2.3

Rozkład długości kielicha

Interpretacja wykresu

  • Setosa ma najmniejszą długość płatka i najmniejszy rozrzut długości płatków, co sprawia, że jest najbardziej jednorodnym gatunkiem w odniesieniu do tej cechy.
  • Versicolor i virginica mają większy rozrzut, przy czym virginica ma dłuższe płatki niż versicolor.
  • Wartości średnie i mediany różnią się w zależności od gatunku, ale virginica ma najwyższą średnią długość płatka, co może wskazywać na większą wielkość tego gatunku w porównaniu z pozostałymi.

Rozkład szerokości kielicha

Interpretacja wykresu

  • Setosa wykazuje najmniejszy zakres szerokości kielicha i jest najmniej zróżnicowany pod względem tej cechy, co sugeruje dużą jednorodność roślin tego gatunku.
  • Versicolor wykazuje największą zmienność szerokości kielicha, co sugeruje, że rośliny tego gatunku mogą mieć kielichy o różnych rozmiarach.
  • Virginica ma średnią szerokość kielicha pomiędzy setosa a versicolor , ale jej rozkład jest bardziej jednorodny niż w versicolor.

Rozkład długoścu płatka

Interpretacja wykresu

  • Setosa ma najmniejsze średnie długości płatków, a ich wartości są dość jednorodne, z niewielką zmiennością.
  • Versicolor ma średnie długości płatków, a rozrzut punktów wskazuje na większą zmienność niż w setosa.
  • Virginica ma najdłuższe płatki i ich długości są najbardziej zróżnicowane, co jest pokazane przez większy rozrzut punktów wokół słupka.

Rozkład szerokości płatka

Interpretacja wykresu

  • Setosa ma znacznie mniejsze wartości w porównaniu do versicolor i virginica, które mają szersze płatki, ale ich rozkład jest bardziej zróżnicowany.
  • Regresja liniowa wykazuje ogólny obraz różnic.

Zależność między długością płatka a szerokością płatka

Interpretacja wykresu

Rozmieszczenie punktów

  • Setosa - punkty są bardziej skumulowane w lewym dolnym rogu wykresu. Charakteryzują się stosunkowo krótką długością i szerokością płatka.

  • Versicolor — punkty są bardziej rozproszone, ale nadal mieszczą się w centralnej części wykresu.

  • Virginica — punkty znajdują się w górnej części wykresu, wskazując na większą długość i szerokość płatków.

Linia regresji

  • pokazuje zależności między zmiennymi Petal.Length i Petal.Width - im większa długość płatka, tym większa szerokość

Mapa cieplna korelacji cech w zbiorze - zależności między cechami

Interpretacja wykresu

Silna dodatnia korelacja między Petal.Length i Petal.Width

  • gdy długość płatka rośnie, rośnie również jego szerokość

Słaba lub zerowa korelacja między Sepal.Width i innymi cechami

  • szerokość działki kielicha nie ma silnego wpływu na pozostałe cechy.

Heatmapa jest symetryczna względem przekątnej

  • wartości na przekątnej zawsze wynoszą 1, ponieważ każda zmienna jest zawsze w pełni skorelowana sama ze sobą (idealna korelacja)

Podsumowanie

Analiza tych cech ujawnia wyraźne różnice między gatunkami.

Setosa wykazuje mniejsze wartości dla większości cech, co czyni ją łatwo rozróżnialną od pozostałych gatunków.

Versicolor i Virginica mają cechy bardziej zbliżone, ale Virginica zazwyczaj osiąga większe wartości w porównaniu do Versicolor. Dzięki tym różnicom, zbiór danych Iris jest doskonałym przykładem do zastosowań w klasyfikacji i modelowaniu statystycznym.

Wykresy, takie jak pudełkowe, histogramy czy wykresy rozrzutu , skutecznie ilustrują te różnice.

Zbiór jest idealnym materiałem do nauki analizy danych, zarówno w kontekście wizualizacji, jak i technik klasyfikacyjnych. W praktyce, dane te mogą być wykorzystane do trenowania modeli, które skutecznie rozróżniają gatunki irysów na podstawie ich cech morfologicznych.