28_BB. Test Anderson-Darling - THE DATA SCIENCE LIBRARY

Test Anderson-Darling został opracowany w roku 1952 przez Teodora Andersona i Donalda Darlinga.

Jest on najczęściej wykorzystywanym testem w metodologii Six Sigma wśród testów badających dopasowanie zestawu danych do rozkładu normalnego.

Wspominałem już, że Black Belt Six Sigma nie jest i nie musi być profesorem statystyki. Musi jednak znać podstawowe pojęcia i sposób postępowania w badaniach statystycznych.

Testowanie hipotez

W statystyce stosuje się podejście dopuszczające dwie możliwości, które można w skrócie nazwać: „Tak albo nie”. W statystyce nazywa się takie dwie przeciwne założenia hipotezami. Rolę „TAK” spełnia hipoteza zerowa H₀. Alternatywą na „NIE” jest hipoteza H₁.

Trzeba przyznać, że jest to bardzo pragmatyczne podejście. Pracując jako Black Belt należy po prostu przestawić się z zadawania pytań typu: „tak albo nie” na pytanie typu: „czy istnieją przesłanki pozwalające odrzucić hipotezę zerową?”.

Założenia testu AD

Również Test Anderson-Darling do testowania rozkładu normalnego stawia dwie przeciwstawne hipotezy statystyczne:

H₀: Rozkład danych jest zgodny z rozkładem normalnym
H₁: Rozkład danych nie jest zgodne z rozkładem normalnym

Nie wchodząc w szczegóły Test Anderson-Darling wykorzystuje wartości p (prawdopodobieństwa zdarzenia w rozkładzie normalnym), aby sprawdzić, czy są wystarczające przesłanki do odrzucenia hipotezy zerowej H₀. Nie dla wszystkich zdarzeń można określić prawdopodobieństwo.

Test Anderson-Darling przyjmuje zasadę, że jeżeli wartość p jest bardzo niska, niższa niż 0,05, wtedy przyjmuje się, że rozkład danych nie jest zgodny z rozkładem normalnym. Przyjmuje się takie założenie, jeżeli został przyjęty poziom istotności 0,05.

Użycie praktyczne testu AD

Mamy dwa zestawy danych po 6 tys. elementów: zbiór A i zbiór B.

Zbiór A ma rozkład prawdopodobieństwa pokrywający się rozkładem normalnym Gaussa.

Zbiór B został celowo zniekształcony w kierunku skośności na prawym ogonie rozkładu.

Test Anderson-Darling dla zbioru A

Punkty testu AD układają się w linii prostej, wartość P-Value wynosi 0.36. Ponieważ został spełniony warunek p >0,05 zostaje przyjęta hipoteza zerowa: H₀: Rozkład danych jest zgodny z rozkładem normalnym

Test Anderson-Darling dla zbioru B

P-Value jest niższe od 0,05, istnieją podstawy do odrzucenia hipotezy zerowej na rzecz hipotezy alternatywnej:

H₁: Rozkład danych nie jest zgodne z rozkładem normalnym

Potwierdza to ułożenie punktów na wykresie AD. Punkty nie układają się w linii prostej, przyjmując formę łuku.

Przy robieniu testu AD w programie Minitab nie zaleca się łączenia dwóch prostych prawdopodobieństwa na jednym wykresie. W naszym przykładzie zbiór A ma wysoki poziom odchylenia standardowego wynoszący około 65. Zbiór B ma przy podobnej średniej wartości odchylenie standardowe w okolicach 5. Zestawienie obu wykresów prawdopodobieństwa może prowadzić do ukrycia defektów normalności zbioru B.