Estymacja a statystyka. Definicja i rodzaje estymacji

Estymacja to kolejna nieco enigmatycznie brzmiąca definicja jaką dostarcza nam statystyka. Zgłębiając kolejne zagadnienia związane z całym procesem badawczym, niemal każdy student, doktorant i naukowiec dojdzie właśnie do etapu estymacji. Zgodnie z definicją estymacja to szacowanie parametrów rozkładu zmiennej losowej w populacji. Inaczej mówiąc w czasie estymacji dochodzi do określenia niektórych wartości dla całej badanej populacji na podstawie próby badawczej. Mogą to być odpowiednio średnia, wariancja, odchylenie standardowe czy liczba osób badanych – ich odsetek, procent czy częstość.

Dla przykładu chcąc określić średnią wagę dzieci w wieku szkolnym w Polsce, nie badamy wszystkich dzieci ze wszystkich szkół tylko ograniczamy się do przebadania wylosowanej grupy respondentów. Nieco upraszczając przyjmijmy, że jest to najczęściej około 1000 osób. Wyniki uzyskane w trakcie takiego badania estymujemy, czyli uogólniamy na całą populację uczniów w Polsce.

estymacja

Niemalże każde badanie statystyczne oparte jest na estymacji, gdyż przebadanie całych populacji byłoby za drogie, rozwleczone w czasie czy wreszcie po prostu niemożliwe do zrealizowania ze względu brak możliwości kontaktu z każdym respondentem z przyczyn losowych. Stąd też estymacja jest wykorzystywana do wysnuwania wniosków o całej populacji po przebadaniu określonego wycinka grupy.

Estymacja jest jednak obarczona błędem. Nie da się powiedzieć na podstawie badania wycinka populacji, ze 100% pewnością, że dana wartość jest prawdziwa dla całej populacji. Prawdopodobieństwo popełnienia błędu szacowania we wnioskowaniu może się wahać od 90% przez 95%, 98% do 99%, i określane jest współczynnikiem ufności. Im wyższy poziom prawdopodobieństwa, tym mniejsza szansa, że podczas wnioskowania popełniliśmy błąd.

Estymacja przedziałowa i estymacja punktowa

Można wyróżnić dwa rodzaje estymacji: parametryczną (czyli szacowanie wartości parametrów rozkładu populacji generalnej) i nieparametryczną (czyli metody znajdowania postaci rozkładu populacji. Jednak w rzeczywistości estymacja nieparametryczna zamieniana jest na metody, które pozwalają na weryfikację hipotez.

Estymacja parametryczna i jej podział przedstawia się następująco:

  • estymacja punktowa – w tym przypadku bierze się pod uwagę jedną konkretną wartość uzyskaną w trakcie analizy wyników badania określonej próby;
  • estymacja przedziałowa – w której określany jest przedział liczbowy, gdzie z danym prawdopodobieństwem zawiera się wartość szacowanego parametru.

Przykład estymacji punktowej:

Estymacja punktowa zostaje zastosowana gdy na całej uczelni chcemy poznać średni wiek, wzrost czy wagę wszystkich studentów. Estymujemy na podstawie ankiety przeprowadzonej wśród wybranej grupy studentów i po zrealizowaniu badania możemy powiedzieć z określonym prawdopodobieństwem, że średni wiek studentów uczelni X wynosi np. 25 lat, średni wzrost to 173 cm a średnia waga wynosi 68 kilogramów. Estymacja punktowa jednak nie mówi nam jak bardzo mylimy się wykonując obliczenia i szacunki, w związku z czym nasze prognozy mogą być błędne i nie jesteśmy w stanie stwierdzić jakiego rodzaju jest to błąd. Dodatkowo prawdopodobieństwo, że trafiliśmy na podstawie przebadanej próby na realną średnią np. wieku jest bliskie 0.

Estymacja przedziałowa:
O estymacji przedziałowej rozważania prowadził polski statystyk Jerzy Spława-Neyman i to on opracował podstawy tej metody. Ma ona na celu stworzenie takiego przedziału wartości liczbowych, który z określonym prawdopodobieństwem zawiera w sobie wartość szacowanego parametru. Prawdopodobieństwo to przyjmuje nazwę poziom ufności i oznaczane jest 1-α ; przedział przybiera nazwę przedziału ufności dla parametru

Przykład estymacji przedziałowej:

Odnosząc się do wcześniejszego przykładu z poszukiwaniem informacji o średnim wieku, wzroście i wadze studentów z całej uczelni, możemy wyznaczyć przedziały w jakich, z określonym prawdopodobieństwem mieści się rzeczywista średnia tych zmiennych, której nie jesteśmy w stanie realnie wyliczyć, bo nigdy nie poznamy prawdziwego wieku, wzrostu i wagi WSZYSTKICH studentów z danej uczelni. Estymacja przedziałowa pozwala nam na uzyskanie informacji o tym w jakich granicach może się mieścić średni wiek, np. między 21,5 roku do 32,3 lat. Szacowanie to dokonuje się na podstawie wybranej próby i wyliczonych dla niej statystyk.

Wynik z próby najprawdopodobniej różni się od tego w całej populacji. Ale dzięki estymacji przedziałowej określamy tę wartość z prawdopodobieństwem na przykład 95% procent, czyli możemy mieć przekonanie, z 95%-ową pewnością, że wyliczony przedział mieści w sobie taką wartość średniego wieku studentów, jaka jest rzeczywiście w całej populacji (choć ciągle nie wiemy jaka ona jest dokładnie). Warto tutaj podkreślić, że gdybyśmy zbadali inną próbkę studentów, średnia i szacowane przedziały ufności dla średniej mogłyby się różnić, w zależności od tego na jakich studentów byśmy „trafili” – starszych czy młodszych. Ale sama rzeczywista wartość estymowanej średniej wieku w CAŁEJ populacji w danym momencie nie zmieni się nigdy.

Innym praktycznym przykładem wykorzystania estymacji są np. badania leków wykonywane przed wprowadzeniem ich na rynek. Dlatego dobierane są próby badawcze osób chorujących na daną chorobę i podawany jest im dany lek. Następnie obserwowane są efekty działania leku, określa się ilu chorym on pomógł i ilu miało efekty uboczne po jego zastosowaniu. Tak przeprowadzone badanie i estymacja pozwala stwierdzić czy lek jest po pierwsze skuteczny, a po drugie czy nie szkodzi pacjentom. De facto można tak też określić czy jego zastosowanie przynosi więcej korzyści niż strat w postaci możliwych efektów ubocznych.

Estymator – definicja i przykład

Co to jest estymator? Z pojęciem estymacji wiąże się kwestia wyliczenia parametru dla naszej próby badawczej, który pozwala oszacować realną wartość parametru w całej populacji. Ten parametr to właśnie estymator. Jak już wcześniej było wspomniane, by móc określić cechy całej populacji, najczęściej przeprowadza się badania na próbie wylosowanej lub wybranej celowo do badania. Stąd wykorzystuje się estymatory, które wskazują szacowaną zmienną w populacji na podstawie zrealizowanej próby badawczej. Dla przykładu można tu podać średnią arytmetyczną, która traktujemy jako estymator wartości oczekiwanej, czyli wartości średniej w całej populacji. Analogicznie określa się odchylenie standardowe czy wariancję z próby, by móc oszacować odchylenie standardowe czy wariancję w populacji.

estymator

Istnieje wiele estymatorów wykorzystywanych do szacowania interesujących nas zmiennych, jednak wyróżnia się ich kilka głównych i wspólnych cech:

  1. Nieobciążoność
  2. Efektywność
  3. Zgodność
  4. Dostateczność
  5. Normalność

Ad 1. Nieobciążoność estymatora to innymi słowy brak występowania błędu systematycznego w ocenie parametru (np: wariancji) na podstawie estymatora. Nie ma tu znaczenia czy w próbie, z której korzystamy jest mało czy dużo elementów. W momencie jak zwiększa się liczba badań, które przeprowadzamy (kolejne próbki wylosowane dla określonej populacji), to zwiększa się też równocześnie prawdopodobieństwo, że estymator niebociążony będzie bliższy prawdziwej wartości parametru, której poszukujemy. Jednocześnie im więcej prób tym mniejszy robi się błąd szacunku parametru na podstawie takiego estymatora.

Średnia arytmetyczna to dobry przykład ilustrujący czym jest estymator nieobciążony. Odwrotna sytuacja będzie, gdy estymator będzie obciążony – wtedy kolejne oszacowanie nie przybliża estymatora do poszukiwanego parametru. Przykładem takiego obciążonego parametru jest wariancja. Dlatego dla wariancji przyjmuje się inny wzór wyliczania jej w przypadku próby (dzieląc przez N – 1) i inny w przypadku jej wyliczania dla populacji (dzieląc przez N). To przyjęcie innego wzoru na wariancję w próbie eliminuje obciążoność estymatora.

Ad 2. Efektywność estymatora określa wielkość wariancji estymatora. Najbardziej efektywny jest estymator o najmniejszej wariancji, czyli liczenie wartości za jego pomocą daje wartości najbardziej skupione wokół rzeczywistej wartości poszukiwanego parametru. Można to odnieść do pomiarów wagi człowieka na różnych wagach, na pierwszej trzy pomiary dały wynik 57,5kg; 57,6 kg; 57,5 kg. Na drugiej wadze 57,1 kg, 57,5 kg; 57,8 kg. A na trzeciej 57,5 kg, 57,2 kg; 57,9 kg. Jak widać najefektywniejszą wagą (estymatorem) jest waga nr 1, gdyż jej wyniki pomiarów nie różniły się znacząco przy kolejnych pomiarach. Analogicznie w przypadku estymatora najefektowniejszy jest ten, który ma najmniejszą wariancję.

Ad 3. O zgodności estymatora mówimy gdy wraz ze zwiększeniem liczebności próby zbliżamy się do prawdziwej wartości szacowanego parametru. Jeżeli estymator jest zgodny to przy większej próbie pomiaru będzie zbliżał się do rzeczywistej wartości, czyli będzie malał błąd oceny parametru przez estymator. Dla przykładu gdy chcemy określić średni wiek populacji 3 tysięcy studentów, to bliżej będziemy wartości rzeczywistej tego wieku gdy przebadamy grupę 1000 osób niż gdybyśmy przebadali 100 osób. To właśnie średnia arytmetyczna jest dobrym przykładem zgodnego estymatora wartości oczekiwanej.

Ad 4. Dostateczność estymatora to liczba informacji jaką zawiera dany estymator w szacowaniu parametru. W przypadku posiadania kilkunastu wyników, powinno się uwzględnić wszystkie informacje jakie się posiada, by móc oszacować prawdziwy parametr. Dla przykładu, gdy mamy 20 dostępnych wyników a korzystamy tylko z 5 to oznacza, że estymator nie jest dostateczny, bo pomija informacje, które są dostępne. Tutaj w definicję estymatora dostatecznego wpisuje się średnia arytmetyczna, gdyż opiera się ona na wszystkich dostępnych w danym badaniu obserwacjach. Okrojoną informację daje (a więc jest estymatorem niedostatecznym) połowa rozstępu, bo przedstawia tylko informację o minimum i maksimum danego parametru wartości oczekiwanej.

Ad 5. Normalność estymatora występuje gdy rozkład jego wartości jest rozkładem normalnym.
Warto tutaj wspomnieć o jeszcze jednej cesze estymatora, tzn o jego dopuszczalności. Estymator jest dopuszczalny gdy w danej klasie nie ma lepszego, na którym można by się oprzeć wyliczając wartość oczekiwaną.
Omawiając temat estymatorów koniecznym jest również odniesie się do estymatora wariancji. Wariancja to miara dyspersji rozkładu. Inne miary dla przykładu to odchylenie standardowe, rozstęp definiowany jako różnica pomiędzy największą i najmniejszą, co do wartości, obserwacją z próby. Pomiędzy rozstępem a wariancją istnieje zależność – oba parametry mogą o siebie zahaczać

Jest jeszcze jedno pojęcie związane z estymacją, mianowicie estymata –  to wartość estymatora dla konkretnej próby. Po dokonaniu losowania reprezentatywnej próby badawczej z populacji, obliczamy wartość średniej arytmetycznej z próby i obliczona wartość jest estymatą.

Bez dobrego estymatora nie da się zrealizować badania, które by dawało precyzyjne wyniki.

Dlaczego się tak dzieje? Ponieważ niezwykle trudne, a czasami zupełnie niemożliwe, jest zrealizowanie badania na całej populacji. Wiązałoby się to z poświeceniem zbyt dużej ilości czasu przez badaczy oraz całym konglomeratem różnorodnych kosztów, w tym np. wynagrodzeniem całej rzeszy ankieterów, którzy mieliby zrealizować badanie. Również pozostałe etapy procesu badawczego wiążą się z kosztami: kodowanie wyników badania czy korzystanie z urządzeń do pomiarów i programów do obliczeń. Posiadanie dobrego estymatora pozwala na istotną redukcję tych kosztów i szybsze uzyskanie stosunkowo dokładnych wyników.

 

Dodatkowe informacje związane z zagadnieniem estymacji można znaleźć m.in. tutaj:

-> https://web.ue.katowice.pl/rkucharski/data/uploads/statmat/sm_02_estim.pdf