Analiza attribute agreement służy do wykrywania nieprawidłowości w ocenach bazujących na subiektywnych odczuciach ludzi. Są badania, które mogą być prowadzone wyłącznie w oparciu o ludzkie odczucia. Przykładem takich pomiarów jest klasyfikacja jakości wina, ocena jakości potraw, zapach perfum czy ocena wystroju wnętrza. Analiza attribute agreement służy do sprawdzenia czy osoby prowadzące ocenę są obiektywne? Czy ich oceny są powtarzalne? Na ile osoby te są stabilne w swoich deklaracjach? Czy pojedynczy rzeczoznawca różni się na tle grupy innych oceniających?
World of Tanks. Przykład zastosowania analizy Attribute Agreemen
Cztery osoby zostały poproszone o ocenę 40 prototypowych map planowanych do wdrożenia w popularnej grze World of Tanks. Poproszono, aby osoby te przedstawili swoje doznania w skali 1-5. Aby oceny były pozbawione zakłóceń, każdy uczestnik walczył z tymi samymi botami. Wszyscy otrzymali również ten sam typ czołgu. Gracze oceniali każdą plansze dwukrotnie. Nigdy dwa razy pod rząd nie grali na tej samej mapie. W ten sposób nie mogli się oni sugerować swoją poprzednią oceną mapy.
Po zakończeniu badań poproszono statystyka, aby zweryfikował na ile subiektywna była ocena poszczególnych graczy.
Dane z badań można pobrać klikając tutaj.
Ponieważ gracze oceniali mapy dwukrotnie, analiza attribute agreement pozwala na ocenę spójności ocen każdego z graczy
Aby przeprowadzić test Attribute Agreement dane muszą być ze sobą spójne. Ilości map oraz ilość ocen graczy muszą być jednakowe dla wszystkich oceniających.
Wszyscy gracze oceniali 40 prototypowych map gry World of Tanks. Gracze oceniali mapy dwukrotnie w kolejności losowej. Gracz o pseudonimie Suchy15 był najbardziej konsekwentny: 37 plansz na 40 ocenił tak samo. Gracz o pseudonimie Bestu95 ocenił w sposób odmienny aż 7 map z 40. Bestu95 współczynniku ufności 95
Statystyka Fleissa - Kappa
Czym wyższa wartość kappa tym silniejsza zgodność ocen. Jeśli kappa = 1, to istnieje idealna zgodność ocen. Dla wartości kappa = 0, zgodność oceny jest czysto przypadkowe. Wartości ujemne kappa zdarzają się bardzo rzadko i występuje wtedy, gdy ocena jest słabsza niż zgodność przypadkowa. Zakłada się, że gdy wartość kappa jest mniejsza od 0,7 ocena nie jest miarodajna. Wartości kappa > 0,9 to doskonała ocena. W przypadku map do gry bardzo trudno osiągnąć zgodność. Gracze mają różne upodobania i preferencje.
Kappa tylko w dwóch przypadkach nie przekroczyła wartości 0,7. Oznacza to, że prawie wszyscy gracze ocenili mapy miarodajnie.
P-value dla określenia spójności ocen
H0: Spójna ocena graczy wynika z przypadku
H1: Spójna ocena graczy nie jest przypadkowa
Jeżeli wartość p-value jest mniejsza lub równa przyjętemu współczynnikowi istotności, p =< 0,05, wówczas należy odrzucić hipotezę zerową na rzecz hipotezy alternatywnej, mówiącej, że spójność ocen graczy nie jest przypadkowa.
W omawianym badaniu p-value dla wszystkich graczy wynosiło zero. Oznacza to, że spójne oceny nie są dziełem przypadku.
Współczynnik Zgodności Kendalla dla indywidualnych graczy
Współczynnik zgodności Kendalla wyraża stopień powiązania między wielokrotnymi ocenami dokonanymi przez gracza. Współczynnik zgodności Kendalla może wynosić od 0 do 1.
H0: Brak związku między powtórną oceną dokonaną przez gracza
H1: Kolejne oceny tych samych obiektów dla gracza są ze sobą powiązane
Hipoteza zerowa zostanie odrzucona, gdy wartość p-value =< 0,05 (poziom istotności α = 0,05).
Dla α = 0,05 wszystkich gracze osiągnęli p – value < 0,05. Można odrzucić hipotezę zerową.
Oceny map każdego indywidualnego gracza są istotnie ze sobą powiązane.
Współczynnik zgodności Kendalla pomiędzy wieloma oceniającymi
Współczynnik zgodności Kendalla wyraża stopień powiązania między ocenami wielu oceniających.
H0: Nie ma związku między ocenami graczy
H1: Oceny graczy są ze sobą powiązane
Jeśli wartość p jest mniejsza lub równa poziomowi istotności (poziom α = 0,05) wówczas należy odrzucić hipotezę zerową na rzecz hipotezy alternatywnej.
Oceny map wśród graczy są ze sobą powiązane.
Zgodność ocen pomiędzy graczami
Czy odpowiedzi graczy są spójne w grupie? Czy gracze byli jednomyślni?
Zgodność graczy była została potwierdzona dla 22 plansz, co stanowi 55
Ocena graficzna
Wykres oceny graczy pokazuje spójność odpowiedzi.
Niebieska kropka dla każdego gracza, symbolizuje rzeczywisty poziom dopasowania w procentach.
Czerwona linia to zmienność oceny.








