Zaawansowane Metody Repróbkowania w Analizie Statystycznej
Przewodnik metodologiczny z implementacją w języku R
Author
Julia Wydra
Published
May 20, 2026
1 Wstęp do metod repróbkowania
Metody repróbkowania (*resampling*) stanowią fundament współczesnej statystyki obliczeniowej. Główną ideą tych technik jest wielokrotne wykorzystanie informacji zawartych w jednej, dostępnej próbie badawczej w celu oceny stabilności, błędów standardowych oraz rozkładów stosowanych estymatorów. Wybór odpowiedniej metody zależy od struktury danych oraz właściwości matematycznych samego estymatora.
**Ważna zasada metodologiczna:** Metody takie jak Bootstrap i Jackknife nie generują nowych informacji o populacji, a jedynie pozwalają w sposób efektywny wydobyć informacje o zmienności estymatora ukryte wewnątrz posiadanej próby losowej.
2 Głęboka Analiza: Metoda Bootstrap
Metoda bootstrap, wprowadzona przez Bradleya Efrona w 1979 roku, zrewolucjonizowała podejście do wnioskowania nieparametrycznego. Opiera się na tzw. **zasadzie substytucji** (*plug-in principle*). Jeśli nie znamy prawdziwego rozkładu populacji \[F\] zastępujemy go rozkładem empirycznym \[\hat{F}_n\] przypisując prawdopodobieństwo \[1/n\] każdej z obserwacji w próbie.
Gdzie \(\bar{\theta}^* = \frac{1}{B}\sum_{b=1}^B \theta_b^*\)
2.2 Szacowanie Wariancji i Błędu Standardowego Estymatora
Kluczowym celem bootstrapu jest wyznaczenie charakterystyk rozkładu estymatora \(\hat{\theta}\), kiedy jego analityczna postać wariancji jest nieznana. Empiryczna wariancja bootstrapowa estymatora wyraża się wzorem:
2.3 Szacowanie Obciążenia (Bias) i Korekta Estymatora
Bootstrap pozwala również ocenić, jak bardzo nasz estymator z próby \(\hat{\theta}\) jest przesunięty względem parametru populacyjnego. Obciążenie bootstrapowe definiujemy jako:
Wyjaśnienie inwersji kwantyli: W przedziale podstawowym (pivotowym) zauważyć można odwrócenie pozycji kwantyli — kwantyl rzędu (1−α/2) modyfikuje lewą (dolną) granicę przedziału. Wynika to stąd, że duże dodatnie błędy w symulacji bootstrapowej (θ∗≫θ^) oznaczają, iż estymator z próby ma tendencję do przeszacowania parametru, co wymaga silniejszej korekty w dół przy wyznaczaniu dolnej granicy rzeczywistego przedziału ufności.
### Implementacja i Symulacja w R
Proces symulacji komputerowej podzielimy na bloki kodu: generowanie danych wejściowych, wykonanie algorytmu ręcznego oraz weryfikację za pomocą pakietu systemowego wraz z wykresem.
library(boot)v_func <-function(data, indices) { d <- data[indices]return(sd(d) /mean(d))}boot_systemowy <-boot(data = dane_analiza, statistic = v_func, R = B) se_boot_sys <-sd(boot_systemowy$t)print(paste("Systemowy błąd standardowy (SE):", round(se_boot_sys, 4)))
[1] "Systemowy błąd standardowy (SE): 0.1052"
hist(boot_manualny, breaks =35, probability =TRUE, col ="lightblue", main ="Rozkład Bootstrapowy Współczynnika Zmienności",xlab ="Wartości V*", border ="gray")lines(density(boot_manualny), col ="darkblue", lwd =3)
2.5 Bootstrap dla Indeksów Agregatowych
W analizach ekonomiczno-społecznych techniki bootstrapowe znajdują szerokie zastosowanie przy szacowaniu precyzji indeksów agregatowych (np. indeksów cenowych Laspeyres’a, Paaschego czy Fishera). Ponieważ wskaźniki te stanowią nieliniowe relacje wielu zmiennych, wyznaczenie ich dokładnego rozkładu teoretycznego jest niezwykle skomplikowane.
Jako przykład rozpatrzmy agregatowy indeks cen typu Laspeyres’a:
Gdzie \(p_{1i}\) to cena w okresie badanym, \(p_{0i}\) cena w okresie bazowym, a \(q_{0i}\) to stała wagowa (ilość) z okresu bazowego. Próbkowanie bootstrapowe polega tutaj na losowaniu ze zwracaniem całych wektorów informacji o produktach.
Metoda Jackknife (Quenouille, 1949; Tukey, 1958) to technika deterministyczna – nie występuje w niej stochastyczne losowanie. Jest historyczną poprzedniczką bootstrapu, zaprojektowaną głównie do redukcji obciążenia (bias reduction).
3.1 Intuicja i zastosowanie
W odróżnieniu od bootstrapu, Jackknife nie losuje niczego na ślepo. Działa metodycznie: usuwa pierwszą obserwację i przelicza wynik, potem ją przywraca, usuwa drugą i znowu przelicza wynik – i tak do końca próby. Pozwala to precyzyjnie ocenić stabilność modelu i sprawdzić, czy w próbie nie ma jednej „wystającej” obserwacji, która całkowicie fałszuje ostateczne wnioski.
Główną wadą metody jest to, że zupełnie nie radzi sobie ze statystykami „niegładkimi”, takimi jak mediana.
::: {.styled-note} Uwaga na ograniczenia: Ponieważ Jackknife opiera się na usuwaniu pojedynczych jednostek, całkowicie zawodzi w przypadku szacowania błędów dla kwantyli i mediany, ponieważ drobna zmiana jednej wartości nie zmienia wartości środkowej próby w sposób ciągły. :::
3.2 Pseudowartości Tukeya i Estymacja Wariancji
Algorytm opiera się na sekwencyjnym usuwaniu z próby dokładnie jednej obserwacji (metoda Leave-One-Out). Aby zredukować obciążenie estymatorów nieliniowych, Tukey wprowadził transformację w tzw. pseudowartości (\(\tilde{\theta}_i\)):
Gdzie \(\hat{\theta}\) to ocena z pełnej próby, a \(\hat{\theta}_{(-i)}\) to ocena obliczona po wycięciu \(i\)-tej obserwacji. Ogólny błąd standardowy Jackknife dany jest wzorem:
Poniższy kod generuje wykres szpilkowy, który pozwala sprawdzić, jak usunięcie konkretnego elementu z bazy danych wpływa na wariancję, ułatwiając tym samym identyfikację obserwacji odstających.
4 Porównanie Właściwości: Bootstrap vs Jackknife
Poniższa tabela przedstawia zestawienie krytycznych różnic operacyjnych między obiema metodami
Kryterium Bootstrap Jackknife
1 Charakterystyka Losowy (ze zwracaniem) Deterministyczny (LOO)
2 Liczba kroków Dowolna (B >= 1000) Sztywna (zawsze n)
3 Główny cel Błędy SE, przedziały Redukcja obciążenia, SE
4 Podatność na medianę Niska (działa poprawnie) Wysoka (całkowicie zawodzi)
5 Metody Grup Losowych oraz BHS
W badaniach masowych o złożonych schematach losowania stosuje się podejścia strukturalne.
5.1 Metoda Niezależnych/Zależnych Grup Losowych - Opis
Metody te polegają na kontrolowanym dzieleniu wielkich zbiorów danych (np. danych ze spisów powszechnych GUS) na mniejsze, autonomiczne pakiety (podgrupy). Zamiast liczyć błąd dla wielomilionowej próby na raz, liczy się statystyki wewnątrz mniejszych grup, a następnie bada się rozbieżności pomiędzy nimi. Zapobiega to przeciążeniom pamięci komputera i uwzględnia strukturę warstwową badania.
5.2 Metoda Niezależnych Grup Losowych
Stosowana, gdy proces zbierania danych opiera się na \(R\) całkowicie niezależnych powtórzeniach identycznego schematu losowania:
5.4 Metoda Zrównoważonych Półpróbek Powtarzanych (BHS) - Opis
Metoda BHS (Balanced Repeated Replication) to wysoce wyspecjalizowana technika używana w badaniach socjoekonomicznych, w których populacja jest podzielona na pary jednostek (np. dwa miasta z każdego województwa). Z każdej pary wybiera się losowo po jednym mieście, tworząc tzw. półpróbkę. Aby zachować matematyczną równowagę i ortogonalność wyborów, wykorzystuje się specjalne macierze kombinatoryczne – macierze Hadamarda.
5.5 Metoda Zrównoważonych Półpróbek Powtarzanych (BHS)
Wykorzystuje ortogonalne Macierze Hadamarda do szacowania wariancji w schematach warstwowych.
Efron, B. (1979) – Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics, Vol. 7, No. 1, str. 2–8. Link do pełnego tekstu PDF
Wasserman, L. (2004) – All of Statistics: A Concise Course in Statistical Inference. Carnegie Mellon University, Springer, str. 97-116. Link do darmowego podręcznika PDF
Wolter, K. M. (2007) – Introduction to Variance Estimation. US Census Bureau, Springer, Second Edition, str. 22-28; 32-50; 151-169; 194-214 Pobierz podręcznik Woltera