Różnica między PRECISION a RECALL w interpretacji Confusion Matrix

Różnica między  PRECISION a RECALL nie jest łatwa do interpretacji dlatego pozwoliłem sobie zrobić małą ściągawkę z tego tematu.

Najlepiej opisana jest interpretacja Confusion Matrix w Wikipedii.

Confusion Matrix jest metodą oceny modeli dyskretnych

W przykładzie zaproponowanym przez Wikipedia mamy zbiór 13 zwierzą:  8 kotów i 5 psów. Model ma za zadanie identyfikację zwierząt ze zdjęć.

W RECALL Confusion Matrix szuka się dobrych odpowiedzi

W tym przypadku sukces jest gdy: (1) model zidentyfikowała kota jako kota, (2) model zidentyfikowała psy jako psy. Na diagramie dobre odpowiedzi zaznaczone są kolorem zielonym.

PRECISION Confusion Matrix analizuje się pod kontem jednej kategorii

Tą jedną kategorią w naszym przypadku są Koty.

W tym przypadku PRECISION analizuje dwie rzeczy: (1) ile razy model zidentyfikowała kota jako kota, (2) ile było wszystkich zidentyfikowanych kotów, w tym przypadków 5 kotów zostało rozpoznanych na zdjęciu jako koty oraz dwa psy zostały błędnie uznane za koty, co daje łączną liczbę 7 kotów.

Nazewnictwo Confusion Matrix

W interpretacji Confusion Matrix stosuje się specyficzne nazewnictwo pól macierzy.

Przy interpretacji Confusion Matrix bardzo ważne jest aby ocenić czy zbiór danych jest zrównoważony.

Niezrównoważony zbiór danych, to taki, gdzie w próbce byłoby na przykład 95% psów i 5% kotów.

Model mógłby identyfikować wszystkie zwierzęta na zdjęciu jako psy i miałby 95% RECALL.

positive (P)  liczba rzeczywistych przypadków pozytywnych w danych

negative (N) liczba rzeczywistych negatywnych przypadków w danych

Różnica między  PRECISION a RECALL.

 Recall zwany też true positive rate (TPR) 

 RECALL to „jak kompletne są wyniki” 

Z 8 kotów program zidentyfikował 5. Wynik 62% oznacza kompletność zidentyfikowanych kotów. Wysokie RECALL oznacza, że ​​algorytm zwrócił większość odpowiednich wyników. RECALL jest miarą kompletności lub ilości.

 Precision albo positive predictive value (PPV) 

 PRECISION precyzja to „jak przydatne są wyniki wyszukiwania” 

Program zidentyfikował poprawnie 5 kotów oraz zidentyfikował 2 psy jako koty.

PRECISION oznacza, że ​​algorytm zwrócił znacznie bardziej istotne wyniki niż te nieistotne. Precyzja może być postrzegana jako miara dokładności lub jakości.

Różnica między  PRECISION a RECALL

Na przykład jest 100 stron na temat X. Wyszukiwarka znalazła 70 stron na temat X, program łącznie otworzyła 120 stron.

RECALL oznacza, że znalazła 70 stron na temat X ze 100 istniejących (dlatego nazywa się to kompletnością 70/100 = 70%)

PRECISION oznacza, że z pośród 120 stron znalazła 70 stron na temat X. (70/120 = 58% dlatego jest miarą jakości poszukiwań)

RECALL definiuje się jako liczbę odpowiednich dokumentów pobranych przez wyszukiwanie podzieloną przez całkowitą liczbę istniejących odpowiednich dokumentów.

PRECISION definiuje się jako liczbę odpowiednich dokumentów pobranych przez wyszukiwanie podzieloną przez całkowitą liczbę dokumentów pobranych przez to wyszukiwanie.