22_BB. Interpretacja rozkładu danych

Interpretacja rozkładu danych ma ogromne znaczenie w badaniach statystycznych

Narzędzia Six Sigma, szczególnie karty kontrolne dla danych ciągłych, wymagają, aby dane miały rozkład normalny. Gdy dane nie mają rozkładu normalnego, wykresy kontrolne będą działały wadliwie. Będą one zgłaszały dużo nieprawdziwych, specjalnych przyczyn zmienności. Dlatego przed przystąpieniem do analizy danych należy najpierw sprawdzić czy rozkład danych jest rozkładem normalnym. Kiedy populacja ma rozkład normalny?

Przeprowadzono badania wzrostu populacji trzech grup mężczyzn w wieku od 18 do 33 lat.

Każda populacja liczyła równo 1 740 mężczyzn.

Trzy grupy, mężczyźni z Kompanii Reprezentacyjnej Wojska Polskiego, przypadkowi mężczyźni z populacji oraz mężczyźni ze środowisk patologicznych. Wyniki badań dla każdej z grup umieszczono w histogramach opartych na rozkładzie normalnym (niebieska linia odpowiada teoretycznemu rozkładowi normalnemu dla danej populacji). Każdy słupek na wykresie pokazuje ilość mężczyzn spełniających określony przedział wzrostu.  Tak interpretujemy histogramy.

Poniżej pokazany jest połączony histogram trzech badanych populacji mężczyzn z badania opisanego w poprzednich wpisach.

Interpretacja rozkładu danych

Widać, że mężczyźni ze środowisk patologicznych (kolor niebieski krzywej) są niżsi od typowych mężczyzn (linia czerwona) i dużo niżsi od żołnierzy reprezentacyjnych (kolor zielony krzywej). W grupie „patologicznej” występuje też większa różnorodność wzrostu. Dlatego teoretyczny rozkład normalny dla tej grupy jest spłaszczony w porównaniu z dwiema pozostałymi grupami.

Interpretacja rozkładu danych wskazuje, że istnieje bardzo niewielkie prawdopodobieństwo, aby wśród żołnierzy znalazł się ktoś mający wzrost poniżej 175 cm. Tymczasem spotkanie kogoś o wzroście 175 cm w grupie typowych mężczyzn (czerwony wykres) jest bardzo wysokie. Trafienie na żołnierza mającego ponad 195 cm wzrostu jest bardzo mało prawdopodobne, dlatego odcinek pod krzywą rozkładu normalnego dla grupy żołnierzy (zielona krzywa) jest bardzo mały.

Interpretacja rozkładu danych przy użyciu rozkładu normalnego gęstości prawdopodobieństwa polega na określeniu jak duży jest odcinek pod krzywą rozkładu normalnego. Czym wyższy odcinek pod krzywą tym jest większe prawdopodobieństwo zaobserwowania zjawiska.

Niebieska linia ciągła symbolizuje teoretyczny rozkład normalny dla populacji mężczyzn ze środowisk patologicznych. Rozkład normalny dla tej grupy jest wyraźnie niższy i bardziej spłaszczony w porównaniu z rozkładami normalnymi pozostałych grup. Potwierdzają to różnice w odchyleniach standardowe i w średnich dla badanych grup.

Czy rozkład wzrostu dla badanych grup mężczyzn ma charakter normalny?

Rozkłady wyników dla badanych grup wskazują na wysokie dopasowanie do dzwonowatych kształtów rozkładów normalnych. Kształty poszczególnych rozkładów gęstości prawdopodobieństwa są symetryczne co również wskazuje na normalny charakter rozkładu danych empirycznych.

Interpretacja rozkładu danych jest ważną umiejętnością w metodologii Six Sigma.