28_BB. Test Anderson-Darling

Test Anderson-Darling został opracowany w roku 1952 przez Teodora Andersona i Donalda Darlinga.

Jest on najczęściej wykorzystywanym testem w metodologii Six Sigma wśród testów badających dopasowanie zestawu danych do rozkładu normalnego.

Wspominałem już, że Black Belt Six Sigma nie jest i nie musi być profesorem statystyki. Musi jednak znać podstawowe pojęcia i sposób postępowania w badaniach statystycznych.

Testowanie hipotez

W statystyce stosuje się podejście dopuszczające dwie możliwości, które można w skrócie nazwać: „Tak albo nie”. W statystyce nazywa się takie dwie przeciwne założenia hipotezami. Rolę „TAK” spełnia hipoteza zerowa H0. Alternatywą na „NIE” jest hipoteza H1.

Trzeba przyznać, że jest to bardzo pragmatyczne podejście. Pracując jako Black Belt należy po prostu przestawić się z zadawania pytań typu: „tak albo nie” na pytanie typu: „czy istnieją przesłanki pozwalające odrzucić hipotezę zerową?”.

Założenia testu AD

Również Test Anderson-Darling do testowania rozkładu normalnego stawia dwie przeciwstawne hipotezy statystyczne:

H0: Rozkład danych jest zgodny z rozkładem normalnym
H1: Rozkład danych nie jest zgodne z rozkładem normalnym

Nie wchodząc w szczegóły Test Anderson-Darling wykorzystuje wartości p (prawdopodobieństwa zdarzenia w rozkładzie normalnym), aby sprawdzić, czy są wystarczające przesłanki do odrzucenia hipotezy zerowej H0. Nie dla wszystkich zdarzeń można określić prawdopodobieństwo.

 Test Anderson-Darling przyjmuje zasadę, że jeżeli wartość p jest bardzo niska, niższa niż 0,05, wtedy przyjmuje się, że rozkład danych nie jest zgodny z rozkładem normalnym. Przyjmuje się takie założenie, jeżeli został przyjęty poziom istotności 0,05. 

Użycie praktyczne testu AD

Mamy dwa zestawy danych po 6 tys. elementów: zbiór A i zbiór B.

Zbiór A ma rozkład prawdopodobieństwa pokrywający się rozkładem normalnym Gaussa.

Zbiór B został celowo zniekształcony w kierunku skośności na prawym ogonie rozkładu.

Test Anderson-Darling dla zbioru A

Punkty testu AD układają się w linii prostej, wartość P-Value wynosi 0.36. Ponieważ został spełniony warunek p >0,05 zostaje przyjęta hipoteza zerowa: H0: Rozkład danych jest zgodny z rozkładem normalnym

Test Anderson-Darling dla zbioru B

P-Value jest niższe od 0,05, istnieją podstawy do odrzucenia hipotezy zerowej na rzecz hipotezy alternatywnej:

H1: Rozkład danych nie jest zgodne z rozkładem normalnym

Potwierdza to ułożenie punktów na wykresie AD. Punkty nie układają się w linii prostej, przyjmując formę łuku.

Przy robieniu testu AD w programie Minitab nie zaleca się łączenia dwóch prostych prawdopodobieństwa na jednym wykresie. W naszym przykładzie zbiór A ma wysoki poziom odchylenia standardowego wynoszący około 65. Zbiór B ma przy podobnej średniej wartości odchylenie standardowe w okolicach 5. Zestawienie obu wykresów prawdopodobieństwa może prowadzić do ukrycia defektów normalności zbioru B.